Apache Ozone И Узлы Хранения Высокой Плотности

Сегодня специалисты по корпоративным данным стремятся максимально эффективно использовать свои платформы.

Хранилище данных играет одну из важнейших ролей, оно является основой всех вычислительных механизмов и приложений.

Еще одной тенденцией является переход к горизонтально масштабируемой модели хранения данных, которая позволяет создавать хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью.

Компании Клаудера И Циско проверил, насколько это реалистично при использовании узлов хранения высокой плотности.

Cloudera заключила партнерское соглашение с Cisco, чтобы помочь создать Проверенная Cisco конструкция (CVD) Для Апач Озон .

Проверенная архитектура CVD построена с использованием Cloudera Data Platform (CDP) Private Cloud Base 7.1.5 на стоечном сервере Cisco UCS S3260 M5 с Apache Ozone в качестве распределенной файловой системы для CDP.

Apache Ozone и узлы хранения высокой плотности

КОНФИГУРАЦИЯ ОЗОНА APACHE ВЫСОКОЙ ПЛОТНОСТИ Apache Ozone – одна из главных инноваций, представлено в CDP , который поддерживает архитектуру хранения данных нового поколения для больших данных, в которой блоки данных организованы в контейнеры хранения для более масштабной и мелкой обработки объектов.

Это было значительное архитектурное усовершенствование способа управления Apache Ozone данными в озере данных в большом масштабе.



Apache Ozone сочетает в себе лучшее от HDFS и Object Store:

  • Преодоление ограничений HDFS.
    • Может поддерживать миллиарды файлов (проверено до 10 миллиардов файлов), в отличие от HDFS, порог масштабируемости которой достигает 400 миллионов файлов.

    • В настоящее время может поддерживать 400 ТБ на узел и 1 ПБ в будущем, в отличие от HDFS, которая поддерживает только до 100 ТБ на узел.

    • Поддерживает диски емкостью 16 ТБ, в отличие от HDFS с дисками емкостью до 8 ТБ.



Apache Ozone и узлы хранения высокой плотности

  • Преодоление ограничений хранилища объектов.

    • Apache Ozone, в отличие от других хранилищ объектов, может поддерживать большие файлы с линейной производительностью.

      Как и HDFS, Apache Ozone разбивает файлы на более мелкие фрагменты (другие хранилища объектов не могут этого сделать и не работают линейно с большими файлами, поскольку большинство из них обслуживают большие файлы через один узел, что снижает производительность).

      В Apache Ozone эти более мелкие фрагменты считываются со всех узлов, обеспечивая линейную производительность.

      Однако размер файла не создает проблем с производительностью.

      Это решает проблемы работы с большими файлами, которые часто возникают в объектных хранилищах.

      масштаб кзабайт.



    Apache Ozone и узлы хранения высокой плотности

    • Разделяет плоскость управления и плоскость данных для обеспечения высокой производительности.

      Поддерживает очень быстрое чтение из нескольких реплик.



    Apache Ozone и узлы хранения высокой плотности

    • Данные из HDFS можно легко перенести в Apache Ozone с помощью знакомых инструментов, таких как distcp. Apache Ozone обрабатывает как большие, так и маленькие файлы.

    • Ozone имеет простую в использовании консоль мониторинга и управления.



    Apache Ozone и узлы хранения высокой плотности

    • Собирает и объединяет метаданные компонентов и представляет состояние кластера.

    • Метаданные в кластере не перекрываются между компонентами.

    • Ни один компонент не может вычислить общее состояние кластера.

    • Как пользователю/инженеру службы поддержки Ozone мне может потребоваться:
      • Просмотр сведений о томах/корзинах/ключах/контейнерах/конвейерах/узлах данных.

      • Для данного файла выясните, частью каких узлов/конвейеров он является.

      • Узнайте, хорошо ли распределены данные между узлами данных и дисками узлов данных.

      • Выясните, есть ли недостающие файловые блоки (или недостаточно реплицированные).

  • Поддерживает разделение уровней вычислений и хранения.



    Apache Ozone и узлы хранения высокой плотности



Методика тестирования

ГЕНЕРАЦИЯ ДАННЫХ В БОЛЬШОМ МАСШТАБЕ Был написан инструмент генератора данных для создания фейковых данных для Ozone. Он работает путем записи синтетических записей файловой системы непосредственно в Ozone OM, SCM и DataNode RocksDB, а затем записи поддельных файлов блоков данных в DataNodes. Это значительно быстрее, чем запись реальных данных с помощью приложения или другого клиента.

Запустив этот инструмент параллельно на всех узлах хранения в кластере, мы можем заполнить все узлы кластера 400 ТБ данных менее чем за день.

Используя этот инструмент, мы смогли генерировать большие объемы данных и сертифицировать Ozone на оборудовании хранения данных высокой плотности.

Мы внесли в продукт несколько улучшений, чтобы улучшить масштабируемость и производительность, чтобы обеспечить высокую плотность на каждом узле.

СТАНДАРТНЫЕ КАРТОЧНЫЕ ТЕСТЫ Мы протестировали производительность Impala TPC-DS на этой тестовой установке.

Используемые шаблоны запросов и примеры запросов соответствуют стандартам, установленным спецификацией эталонного тестирования TPC-DS, и включают только незначительные модификации запросов (MQM), как указано в разделе 4.2.3 спецификации.

Все эти скрипты можно найти по адресу Импала-tpcds-комплект .

Локальное кэширование Impala было включено во время выполнения теста.

Результаты тестирования показывают, что 70% запросов имели такую же или лучшую производительность, чем те же запросы, выполняемые с HDFS в качестве файловой системы.

ОБРАБОТКА НЕИСПРАВНОСТЕЙ Потеря одного или нескольких узлов высокой плотности приводит к значительному увеличению трафика повторной репликации.

Чтобы обеспечить высокую надежность и доступность данных, важно, чтобы файловая система быстро восстанавливалась после аппаратных сбоев.

Чтобы эффективно восстановиться после потери плотных узлов, Ozone включает в себя оптимизации, в том числе использование функции multi-RAFT Apache Ozone. Это сделано для улучшения распределения данных и предотвращения остановки репликации при меньшем количестве узлов.

Результаты теста производительности мы опубликуем в отдельной статье.



Платформа анализа данных Cisco

Платформа анализа данных Cisco (CDIP) — это архитектура частного облака, разработанная с учетом будущих возможностей гибридной облачной архитектуры озера данных следующего поколения.

Он объединяет большие данные, искусственный интеллект/вычислительные фермы и уровни хранения для совместной работы — в одно целое.

Он также обеспечивает независимую масштабируемость для решения ИТ-задач в современном центре обработки данных.

Эту архитектуру отличают:

  • Чрезвычайно быстрый сбор и проектирование данных в озере данных.

  • Вычислительная ферма искусственного интеллекта, которая позволяет различным типам платформ искусственного интеллекта и типам процессоров (ЦП, графический процессор, FPGA) работать с этими данными для дальнейшего анализа.

  • Уровень хранения, который поддерживает данные размером до эксабайта в системе с высокой плотностью при более низкой стоимости в долларах за ТБ, что приводит к снижению совокупной стоимости владения.

  • Легко масштабируйтесь до тысяч узлов с единой панели с помощью Cisco Application Centric Infrastructure (ACI).

Эта архитектура знаменует собой начало сближения трех основных инициатив с открытым исходным кодом: Hadoop, Kubernetes и AI/ML. Он основан на впечатляющей программной платформе и технологиях на основе Cloudera Data Platform Private Cloud Base и Cloudera Data Platform Private Cloud для работы с большими данными.



Apache Ozone и узлы хранения высокой плотности

Варианты использования в разных отраслях.

Стоечные серверы Cisco UCS C240 M5 предоставляют экономичное локальное хранилище высокой плотности с гибкой инфраструктурой для объектного хранилища, Hadoop и решений для анализа больших данных.

CVD предлагает клиентам возможность дальнейшей консолидации своего озера данных за счет увеличения емкости хранилища на узел данных.

Apache Ozone обеспечивает следующие преимущества и экономию средств за счет консолидации хранилищ:

  • Снижение затрат на инфраструктуру.

  • Снижение затрат на лицензирование и поддержку программного обеспечения.

  • Меньшая занимаемая площадь.

  • Новые расширенные варианты использования с поддержкой HDFS и S3 и миллиардами объектов, поддерживающих как большие, так и маленькие файлы.



Apache Ozone и узлы хранения высокой плотности

CDIP с Cloudera Data Platform Private Cloud Experiences позволяет клиентам независимо масштабировать хранилище и вычислительные ресурсы, сохраняя при этом локальность данных, аналогичную HDFS предыдущего поколения.

Он предлагает архитектуру масштаба эксабайта с низкой совокупной стоимостью владения (TCO) и перспективную архитектуру с использованием технологий последнего поколения, предоставляемых Cloudera. Теги: #Хранилища данных #Хранение данных #Большие данные #Hadoop #большие данные #Cloudera #ozone

Вместе с данным постом часто просматривают: