Сегодня мы поговорим о том, как лучше хранить данные в мире, где сети пятого поколения, сканеры генома и беспилотные автомобили производят в день больше данных, чем все человечество генерировало до промышленной революции.
Наш мир генерирует все больше и больше информации.
Какая-то его часть мимолетна и теряется так же быстро, как и собирается.
Другой должен храниться дольше, а другой даже рассчитан «на века» — по крайней мере, так мы видим из настоящего.
Информационные потоки оседают в дата-центрах с такой скоростью, что любой новый подход, любая технология, призванная удовлетворить этот бесконечный «спрос», быстро устаревает.
40 лет разработки распределенных систем хранения данных
Первое сетевое хранилище в привычном нам виде появилось в 1980-х годах.Многие из вас сталкивались с NFS (сетевая файловая система), AFS (файловая система Эндрю) или Coda. Десятилетие спустя мода и технологии изменились, и распределенные файловые системы уступили место кластерным системам хранения данных на базе GPFS (General Parallel File System), CFS (Clustered File Systems) и StorNext. В качестве основы использовалось блочное хранилище классической архитектуры, поверх которого с помощью программного уровня создавалась единая файловая система.
Эти и подобные решения до сих пор используются, занимают свою нишу и вполне востребованы.
На рубеже тысячелетий парадигма распределенного хранения несколько изменилась, и лидирующие позиции заняли системы с архитектурой SN (Shared-Nothing).
Произошел переход от кластерного хранилища к хранению на отдельных узлах, которые, как правило, представляли собой классические серверы с программным обеспечением, обеспечивающим надежное хранение; На таких принципах построены, скажем, HDFS (Hadoop Distributed File System) и GFS (Global File System).
Ближе к 2010-м годам концепции, лежащие в основе распределенных систем хранения, все чаще стали отражаться в полноценных коммерческих продуктах, таких как VMware vSAN, Dell EMC Isilon и наших Huawei OceanStor .
За упомянутыми платформами стоит уже не сообщество энтузиастов, а конкретные вендоры, которые отвечают за функциональность, поддержку и обслуживание продукта и гарантируют его дальнейшее развитие.
Такие решения наиболее востребованы в нескольких сферах.
Операторы связи
Пожалуй, одними из старейших потребителей распределенных систем хранения являются операторы связи.На диаграмме показано, какие группы приложений производят основной объем данных.
OSS (системы поддержки операций), MSS (услуги поддержки управления) и BSS (системы поддержки бизнеса) представляют собой три взаимодополняющих уровня программного обеспечения, необходимых для предоставления услуг абонентам, финансовой отчетности провайдеру и оперативной поддержки инженеров-операторов.
Зачастую данные этих слоев сильно перемешиваются друг с другом, и во избежание накопления ненужных копий используется распределенное хранилище, аккумулирующее весь объем информации, поступающей из операционной сети.
Хранилища объединены в общий пул, к которому имеют доступ все сервисы.
Наши расчеты показывают, что переход от классических СХД к блочным СХД позволяет сэкономить до 70% бюджета только за счет отказа от выделенных hi-end СХД и использования обычных серверов классической архитектуры (обычно x86), работающих совместно со специализированными СХД.
программное обеспечение.
Операторы сотовой связи уже давно начали закупать подобные решения в больших количествах.
В частности, российские операторы уже более шести лет используют подобные продукты от Huawei. Да, ряд задач невозможно выполнить с помощью распределенных систем.
Например, с повышенными требованиями к производительности или совместимости со старыми протоколами.
Но не менее 70% данных, обрабатываемых оператором, могут находиться в распределенном пуле.
Банковский сектор
В любом банке есть множество различных ИТ-систем, начиная от процессинга и заканчивая автоматизированной банковской системой.Данная инфраструктура также работает с огромным объемом информации, при этом большинство задач не требуют повышенной производительности и надежности СХД, например, разработка, тестирование, автоматизация офисных процессов и т.д. Здесь возможно использование классических СХД, но с каждым годом это все менее прибыльно.
Кроме того, в этом случае отсутствует гибкость в использовании ресурсов системы хранения, производительность которой рассчитывается исходя из пиковой нагрузки.
При использовании распределенных систем хранения их узлы, являющиеся по сути обычными серверами, можно в любой момент преобразовать, например, в ферму серверов и использовать в качестве вычислительной платформы.
Озера данных
На диаграмме выше показан список типичных потребителей услуг.Это могут быть электронные государственные услуги (например, «Госуслуги»), цифровизированные предприятия, финансовые учреждения и т. д. Всем им необходимо работать с большими объемами разнородной информации.
«Использование классических систем хранения для решения подобных задач неэффективно, поскольку требуется как высокопроизводительный доступ к блочным базам данных, так и регулярный доступ к библиотекам отсканированных документов, хранящихся в виде объектов.
Например, сюда также можно подключить систему заказов через веб-портал.
Чтобы реализовать все это на классической платформе хранения, вам понадобится большой набор оборудования для различных задач.
Одна горизонтальная универсальная система хранения вполне может покрыть все ранее перечисленные задачи: достаточно создать в ней несколько пулов с разными характеристиками хранения.
Генераторы новой информации
Объем информации, хранящейся в мире, растет примерно на 30% в год. Это хорошая новость для поставщиков систем хранения данных, но что является и будет основным источником этих данных? Десять лет назад такими генераторами стали социальные сети; это потребовало создания большого количества новых алгоритмов, аппаратных решений и т. д. Сейчас существуют три основных драйвера роста объемов хранения.Первое — это облачные вычисления.
В настоящее время около 70% компаний так или иначе используют облачные сервисы.
Это могут быть системы электронной почты, резервные копии и другие виртуализированные объекты.
Второй драйвер – сети пятого поколения.
Это новые скорости и новые объемы передачи данных.
По нашим прогнозам, широкое внедрение 5G приведет к падению спроса на карты флэш-памяти.
Сколько бы памяти ни было в телефоне, она все равно заканчивается, и если у гаджета есть 100-мегабитный канал, нет необходимости хранить фотографии локально.
Третья группа причин, по которой растет спрос на системы хранения, включает бурное развитие искусственного интеллекта, переход к аналитике больших данных и тенденцию к всеобщей автоматизации всего возможного.
Особенностью «нового трафика» является его отсутствие структуры .
Нам нужно хранить эти данные, никак не определяя их формат. Он необходим только для последующего чтения.
Например, для определения доступной суммы кредита банковская скоринговая система будет смотреть фотографии, которые вы публикуете в социальных сетях, определять, часто ли вы ходите на море и в рестораны, а заодно изучить имеющиеся выписки из ваших медицинских документов.
к этому.
Эти данные, с одной стороны, являются исчерпывающими, а с другой, им недостает однородности.
Океан неструктурированных данных
Какие проблемы влечет за собой появление «новых данных»? Первым среди них, конечно же, является сам объем информации и предполагаемый срок ее хранения.Один только современный беспилотный автономный автомобиль ежедневно генерирует до 60 терабайт данных со всех своих датчиков и механизмов.
Для разработки новых алгоритмов движения эту информацию необходимо обработать в течение одного дня, иначе она начнет накапливаться.
При этом хранить его необходимо очень долго – десятилетия.
Только тогда можно будет в будущем делать выводы на основе больших аналитических выборок.
Одно устройство для расшифровки генетических последовательностей выдаёт около 6 ТБ в сутки.
Причем данные, собранные с его помощью, совершенно не предполагают удаления, то есть гипотетически они должны храниться вечно.
Наконец, те же сети пятого поколения.
Помимо собственно передаваемой информации, такая сеть сама по себе является огромным генератором данных: журналов активности, записей вызовов, промежуточных результатов межмашинного взаимодействия и т. д. Все это требует разработки новых подходов и алгоритмов хранения и обработки информации.
И такие подходы появляются.
Технологии новой эры
Выделяются три группы решений, призванных справиться с новыми требованиями к системам хранения информации: внедрение искусственного интеллекта, техническая эволюция носителей информации и инновации в области системной архитектуры.Начнем с ИИ.
В новых решениях Huawei искусственный интеллект используется на уровне самого хранилища, которое оснащено AI-процессором, позволяющим системе самостоятельно анализировать его состояние и прогнозировать сбои.
Если система хранения будет подключена к сервисному облаку, обладающему значительными вычислительными возможностями, искусственный интеллект сможет обрабатывать больше информации и повышать точность своих гипотез.
Помимо сбоев, такой ИИ может прогнозировать будущую пиковую нагрузку и время, оставшееся до исчерпания мощностей.
Это позволяет оптимизировать производительность и масштабировать систему до того, как произойдут какие-либо нежелательные события.
Теперь об эволюции носителей информации.
Первые флэш-накопители были изготовлены по технологии SLC (Single-Level Cell).
Устройства на его основе были быстрыми, надежными, стабильными, но имели небольшую мощность и были очень дорогими.
Рост объемов и снижение цен были достигнуты за счет определенных технических уступок, из-за которых были снижены быстродействие, надежность и срок службы приводов.
Тем не менее, тенденция не коснулась самих систем хранения, которые за счет различных архитектурных ухищрений в целом стали и производительнее, и надежнее.
Но зачем вам понадобились системы хранения данных All-Flash? Разве недостаточно было просто заменить старые HDD в уже работающей системе на новые SSD того же форм-фактора? Это требовалось для того, чтобы эффективно использовать все ресурсы новых твердотельных накопителей, что в старых системах было просто невозможно.
Компания Huawei, например, разработала ряд технологий для решения этой проблемы, одна из которых — ФлэшЛинк , что позволило максимально оптимизировать взаимодействие «диск-контроллер».
Интеллектуальная идентификация позволила разложить данные на несколько потоков и справиться с рядом нежелательных явлений, таких как В.
А.
(напишите усиление).
При этом новые алгоритмы восстановления, в частности Рейд 2.0+ , увеличили скорость восстановления, сократив его время до совершенно незначительных величин.
Сбой, перегруженность, сбор мусора — эти факторы также больше не влияют на производительность СХД благодаря специальным доработкам контроллеров.
И блочные хранилища данных тоже готовятся к встрече NVMe .
Напомним, что классическая схема организации доступа к данным работала следующим образом: процессор обращался к RAID-контроллеру по шине PCI Express. Тот, в свою очередь, взаимодействовал с механическими дисками через SCSI или SAS. Использование NVMe на бэкенде значительно ускорило весь процесс, но имело один недостаток: накопители нужно было напрямую подключать к процессору, чтобы обеспечить ему прямой доступ к памяти.
Следующий этап развития технологий, который мы наблюдаем сейчас, — это использование NVMe-oF (NVMe over Fabrics).
Что касается блочных технологий Huawei, то они уже поддерживают FC-NVMe (NVMe over Fibre Channel), а NVMe over RoCE (RDMA over Converged Ethernet) находится на подходе.
Тестовые модели вполне функциональны; до их официальной презентации осталось несколько месяцев.
Отметим, что все это появится в распределенных системах, где « Ethernet без потерь» будет пользоваться большим спросом.
Дополнительным способом оптимизации работы распределенного хранилища стал полный отказ от зеркалирования данных.
Решения Huawei больше не используют n копий, как в обычном RAID 1, а полностью переходят на ?.
К.
(Стирающее кодирование).
Специальный математический пакет с определенной периодичностью рассчитывает блоки управления, которые позволяют восстановить промежуточные данные в случае их потери.
Механизмы дедупликации и сжатия становятся обязательными.
Если в классических СХД мы ограничены количеством процессоров, установленных в контроллерах, то в распределенных горизонтально масштабируемых СХД каждый узел содержит все необходимое: диски, память, процессоры и интерконнект. Этих ресурсов достаточно для дедупликации и сжатия, чтобы оказать минимальное влияние на производительность.
И о методах аппаратной оптимизации.
Здесь удалось снизить нагрузку на центральные процессоры с помощью дополнительных выделенных чипов (или выделенных блоков в самом процессоре), которые играют роль ПАЛЕЦ НА НОГЕ (TCP/IP Offload Engine) или выполнение математических задач EC, дедупликации и сжатия.
Новые подходы к хранению данных воплощены в дезагрегированной (распределенной) архитектуре.
Централизованные системы хранения имеют фабрику серверов, подключенную через Fibre Channel к САН с большим количеством массивов.
Недостатками такого подхода являются сложность масштабирования и обеспечения гарантированного уровня сервиса (с точки зрения производительности или задержки).
Гиперконвергентные системы используют одни и те же хосты как для хранения, так и для обработки информации.
Это дает практически неограниченные возможности для масштабирования, но влечет за собой высокие затраты на поддержание целостности данных.
В отличие от обоих вышеперечисленных, дезагрегированная архитектура подразумевает разделение системы на вычислительную фабрику и горизонтальную систему хранения данных .
Это обеспечивает преимущества обеих архитектур и позволяет практически неограниченно масштабировать только тот элемент, которому не хватает производительности.
От интеграции к конвергенции
Классическая задача, актуальность которой за последние 15 лет только возросла, — это необходимость одновременного обеспечения блочного хранилища, доступа к файлам, доступа к объектам, работы фермы больших данных и т. д. Вишенкой на торте также могла бы стать вишенка на торте.быть, например, системой резервного копирования на магнитной ленте.
На первом этапе удалось унифицировать только управление этими службами.
Гетерогенные системы хранения данных были подключены к какому-то специализированному программному обеспечению, посредством которого администратор распределял ресурсы из доступных пулов.
Но поскольку эти пулы имели разное оборудование, миграция нагрузки между ними была невозможна.
На более высоком уровне интеграции агрегация происходила на уровне шлюза.
Если бы был доступен обмен файлами, его можно было бы обслуживать через разные протоколы.
Самый продвинутый метод конвергенции, доступный нам на данный момент, предполагает создание универсальной гибридной системы.
Именно то, чем должен стать наш ОкеанСтор 100D .
Универсальный доступ использует одни и те же аппаратные ресурсы, логически разделенные на разные пулы, но допускающие миграцию нагрузки.
Все это можно сделать через единую консоль управления.
Таким образом, нам удалось реализовать концепцию «один дата-центр – одна система хранения».
Стоимость хранения информации сейчас определяет многие архитектурные решения.
И хотя его смело можно поставить во главу угла, сегодня мы говорим о «живом» хранилище с активным доступом, поэтому производительность тоже надо учитывать.
Еще одним важным свойством распределенных систем нового поколения является унификация.
Ведь никто не хочет иметь несколько разрозненных систем, управляемых с разных консолей.
Все эти качества воплощены в новой серии продуктов Huawei. OceanStor Pacific .
Система хранения данных нового поколения
OceanStor Pacific соответствует требованиям надежности шесть девяток (99,9999%) и может использоваться для создания центров обработки данных класса HyperMetro. При расстоянии между двумя дата-центрами до 100 км системы демонстрируют дополнительную задержку в 2 мс, что позволяет строить на их основе любые катастрофоустойчивые решения, в том числе с кворум-серверами.
Продукты новой серии демонстрируют универсальность протоколов.
OceanStor 100D уже поддерживает блочный доступ, доступ к объектам и доступ к Hadoop. Доступ к файлам также будет реализован в ближайшем будущем.
Нет необходимости хранить несколько копий данных, если их можно выдавать по разным протоколам.
Казалось бы, какое отношение понятие «сеть без потерь» имеет к системам хранения данных? Дело в том, что распределенные системы хранения данных строятся на основе быстрой сети, поддерживающей соответствующие алгоритмы и механизм RoCE. Система искусственного интеллекта, поддерживаемая нашими коммутаторами, помогает еще больше увеличить скорость сети и снизить задержку.
Прирост производительности СХД при активации AI Fabric может достигать 20%.
Что представляет собой новый узел распределенного хранения данных OceanStor Pacific? Решение форм-фактора 5U включает 120 накопителей и способно заменить три классических узла, что обеспечивает более чем двукратную экономию места в стойке.
Без хранения копий эффективность накопителей значительно возрастает (до +92%).
Мы привыкли, что программно-определяемое хранилище — это специальное программное обеспечение, устанавливаемое на классический сервер.
Но теперь для достижения оптимальных параметров это архитектурное решение требует еще и специальных узлов.
Он состоит из двух серверов на базе процессоров ARM, которые управляют массивом трехдюймовых накопителей.
Эти серверы не подходят для гиперконвергентных решений.
Во-первых, приложений для ARM довольно много, во-вторых, сложно поддерживать баланс нагрузки.
Мы предлагаем перейти на раздельное хранилище: вычислительный кластер, представленный классическими или стоечными серверами, работает отдельно, но подключается к узлам хранения OceanStor Pacific, которые также выполняют свои прямые задачи.
И это оправдывает себя.
Например, возьмем классическое решение для хранения больших данных с гиперконвергентной системой, занимающей 15 серверных стоек.
Если распределить нагрузку между отдельными вычислительными серверами и узлами хранения OceanStor Pacific, отделив их друг от друга, количество необходимых стоек сократится вдвое! Это снижает эксплуатационные расходы центра обработки данных и снижает общую стоимость владения.
В мире, где объем хранимой информации растет на 30% в год, такими преимуществами не разбрасываются.
***
Более подробную информацию о решениях Huawei и сценариях их применения вы можете получить на нашем сайте.Веб-сайт или связавшись напрямую с представителями компании.
Теги: #Хранение данных #сетевое оборудование #ИТ-инфраструктура #Huawei #Системы хранения #системы хранения данных #huawei Enterprise #ai Fabric #oceanstor pacific #flashlink #flashlink #oceanstor 100d #fc-nvme #nmve over roce
-
Схемы Переподготовки Comptia — Обновление
19 Oct, 24 -
Ясно: Оба; Или Нет?
19 Oct, 24 -
Cnews Awards Или It-Бизнес По-Русски
19 Oct, 24 -
Проект Столетие
19 Oct, 24 -
Доменporn.com Куплен За 9 Миллионов Долларов
19 Oct, 24