Сегодня специалисты по корпоративным данным стремятся максимально эффективно использовать свои платформы.
Хранилище данных играет одну из важнейших ролей, оно является основой всех вычислительных механизмов и приложений.
Еще одной тенденцией является переход к горизонтально масштабируемой модели хранения данных, которая позволяет создавать хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью.
Компании Клаудера И Циско проверил, насколько это реалистично при использовании узлов хранения высокой плотности.
Cloudera заключила партнерское соглашение с Cisco, чтобы помочь создать Проверенная Cisco конструкция (CVD) Для Апач Озон .
Проверенная архитектура CVD построена с использованием Cloudera Data Platform (CDP) Private Cloud Base 7.1.5 на стоечном сервере Cisco UCS S3260 M5 с Apache Ozone в качестве распределенной файловой системы для CDP.
КОНФИГУРАЦИЯ ОЗОНА APACHE ВЫСОКОЙ ПЛОТНОСТИ Apache Ozone – одна из главных инноваций, представлено в CDP , который поддерживает архитектуру хранения данных нового поколения для больших данных, в которой блоки данных организованы в контейнеры хранения для более масштабной и мелкой обработки объектов.
Это было значительное архитектурное усовершенствование способа управления Apache Ozone данными в озере данных в большом масштабе.
Apache Ozone сочетает в себе лучшее от HDFS и Object Store:
- Преодоление ограничений HDFS.
- Может поддерживать миллиарды файлов (проверено до 10 миллиардов файлов), в отличие от HDFS, порог масштабируемости которой достигает 400 миллионов файлов.
- В настоящее время может поддерживать 400 ТБ на узел и 1 ПБ в будущем, в отличие от HDFS, которая поддерживает только до 100 ТБ на узел.
- Поддерживает диски емкостью 16 ТБ, в отличие от HDFS с дисками емкостью до 8 ТБ.
- Может поддерживать миллиарды файлов (проверено до 10 миллиардов файлов), в отличие от HDFS, порог масштабируемости которой достигает 400 миллионов файлов.
- Преодоление ограничений хранилища объектов.
- Apache Ozone, в отличие от других хранилищ объектов, может поддерживать большие файлы с линейной производительностью.
Как и HDFS, Apache Ozone разбивает файлы на более мелкие фрагменты (другие хранилища объектов не могут этого сделать и не работают линейно с большими файлами, поскольку большинство из них обслуживают большие файлы через один узел, что снижает производительность).
В Apache Ozone эти более мелкие фрагменты считываются со всех узлов, обеспечивая линейную производительность.
Однако размер файла не создает проблем с производительностью.
Это решает проблемы работы с большими файлами, которые часто возникают в объектных хранилищах.
масштаб кзабайт.
- Разделяет плоскость управления и плоскость данных для обеспечения высокой производительности.
Поддерживает очень быстрое чтение из нескольких реплик.
- Данные из HDFS можно легко перенести в Apache Ozone с помощью знакомых инструментов, таких как distcp. Apache Ozone обрабатывает как большие, так и маленькие файлы.
- Ozone имеет простую в использовании консоль мониторинга и управления.
- Собирает и объединяет метаданные компонентов и представляет состояние кластера.
- Метаданные в кластере не перекрываются между компонентами.
- Ни один компонент не может вычислить общее состояние кластера.
- Как пользователю/инженеру службы поддержки Ozone мне может потребоваться:
- Просмотр сведений о томах/корзинах/ключах/контейнерах/конвейерах/узлах данных.
- Для данного файла выясните, частью каких узлов/конвейеров он является.
- Узнайте, хорошо ли распределены данные между узлами данных и дисками узлов данных.
- Выясните, есть ли недостающие файловые блоки (или недостаточно реплицированные).
- Просмотр сведений о томах/корзинах/ключах/контейнерах/конвейерах/узлах данных.
- Apache Ozone, в отличие от других хранилищ объектов, может поддерживать большие файлы с линейной производительностью.
- Поддерживает разделение уровней вычислений и хранения.
Методика тестирования
ГЕНЕРАЦИЯ ДАННЫХ В БОЛЬШОМ МАСШТАБЕ Был написан инструмент генератора данных для создания фейковых данных для Ozone. Он работает путем записи синтетических записей файловой системы непосредственно в Ozone OM, SCM и DataNode RocksDB, а затем записи поддельных файлов блоков данных в DataNodes. Это значительно быстрее, чем запись реальных данных с помощью приложения или другого клиента.Запустив этот инструмент параллельно на всех узлах хранения в кластере, мы можем заполнить все узлы кластера 400 ТБ данных менее чем за день.
Используя этот инструмент, мы смогли генерировать большие объемы данных и сертифицировать Ozone на оборудовании хранения данных высокой плотности.
Мы внесли в продукт несколько улучшений, чтобы улучшить масштабируемость и производительность, чтобы обеспечить высокую плотность на каждом узле.
СТАНДАРТНЫЕ КАРТОЧНЫЕ ТЕСТЫ Мы протестировали производительность Impala TPC-DS на этой тестовой установке.
Используемые шаблоны запросов и примеры запросов соответствуют стандартам, установленным спецификацией эталонного тестирования TPC-DS, и включают только незначительные модификации запросов (MQM), как указано в разделе 4.2.3 спецификации.
Все эти скрипты можно найти по адресу Импала-tpcds-комплект .
Локальное кэширование Impala было включено во время выполнения теста.
Результаты тестирования показывают, что 70% запросов имели такую же или лучшую производительность, чем те же запросы, выполняемые с HDFS в качестве файловой системы.
ОБРАБОТКА НЕИСПРАВНОСТЕЙ Потеря одного или нескольких узлов высокой плотности приводит к значительному увеличению трафика повторной репликации.
Чтобы обеспечить высокую надежность и доступность данных, важно, чтобы файловая система быстро восстанавливалась после аппаратных сбоев.
Чтобы эффективно восстановиться после потери плотных узлов, Ozone включает в себя оптимизации, в том числе использование функции multi-RAFT Apache Ozone. Это сделано для улучшения распределения данных и предотвращения остановки репликации при меньшем количестве узлов.
Результаты теста производительности мы опубликуем в отдельной статье.
Платформа анализа данных Cisco
Платформа анализа данных Cisco (CDIP) — это архитектура частного облака, разработанная с учетом будущих возможностей гибридной облачной архитектуры озера данных следующего поколения.Он объединяет большие данные, искусственный интеллект/вычислительные фермы и уровни хранения для совместной работы — в одно целое.
Он также обеспечивает независимую масштабируемость для решения ИТ-задач в современном центре обработки данных.
Эту архитектуру отличают:
- Чрезвычайно быстрый сбор и проектирование данных в озере данных.
- Вычислительная ферма искусственного интеллекта, которая позволяет различным типам платформ искусственного интеллекта и типам процессоров (ЦП, графический процессор, FPGA) работать с этими данными для дальнейшего анализа.
- Уровень хранения, который поддерживает данные размером до эксабайта в системе с высокой плотностью при более низкой стоимости в долларах за ТБ, что приводит к снижению совокупной стоимости владения.
- Легко масштабируйтесь до тысяч узлов с единой панели с помощью Cisco Application Centric Infrastructure (ACI).
Варианты использования в разных отраслях.
Стоечные серверы Cisco UCS C240 M5 предоставляют экономичное локальное хранилище высокой плотности с гибкой инфраструктурой для объектного хранилища, Hadoop и решений для анализа больших данных.
CVD предлагает клиентам возможность дальнейшей консолидации своего озера данных за счет увеличения емкости хранилища на узел данных.
Apache Ozone обеспечивает следующие преимущества и экономию средств за счет консолидации хранилищ:
- Снижение затрат на инфраструктуру.
- Снижение затрат на лицензирование и поддержку программного обеспечения.
- Меньшая занимаемая площадь.
- Новые расширенные варианты использования с поддержкой HDFS и S3 и миллиардами объектов, поддерживающих как большие, так и маленькие файлы.
CDIP с Cloudera Data Platform Private Cloud Experiences позволяет клиентам независимо масштабировать хранилище и вычислительные ресурсы, сохраняя при этом локальность данных, аналогичную HDFS предыдущего поколения.
Он предлагает архитектуру масштаба эксабайта с низкой совокупной стоимостью владения (TCO) и перспективную архитектуру с использованием технологий последнего поколения, предоставляемых Cloudera. Теги: #Хранилища данных #Хранение данных #Большие данные #Hadoop #большие данные #Cloudera #ozone
-
Улучшение Zimbra С Помощью Zextras Suite
19 Oct, 24 -
Высший Алгоритм – Предвзятое Резюме
19 Oct, 24 -
Музыкальные Клипы Появятся На Last.fm
19 Oct, 24