Системы хранения данных, представленные на рынке, по большей части мало чем отличаются друг от друга, поскольку многие вендоры заказывают оборудование практически у одних и тех же ODM-производителей.
У нас почти все свое, от шасси до контроллеров, технологий типа RAID 2.0+ и программного обеспечения.
Ниже под катом — некоторые подробности о том, что же такого необычного в каждом из узлов системы хранения данных.
Что интересного на уровне модуля
Конструктивно все современные СХД любого производителя выглядят одинаково: в передней части стального коробчатого шасси установлены контроллеры, а в задней части — интерфейсные модули.Также имеются силовые и вентиляционные установки.
Казалось бы, все знакомо и стандартно.
Но на самом деле мы привнесли в эту парадигму много интересного.
Начнем с установки элементов системы хранения данных в шасси.
Магнитных 3,5-дюймовых дисков в СХД становится меньше, а гибридные системы и all-flash начинают преобладать.
Но даже несколько дисковых накопителей со скоростью вращения шпинделя до 15 тысяч оборотов в минуту создают вибрацию, которую невозможно игнорировать.
Мы разработали целый набор рекомендаций на этот случай — как распределить магнитные накопители с различными параметрами по дисковым полкам.
Пусть даже на доли процента, это влияет на надежность.
А в масштабах крупного дата-центра доли процентов на один диск превращаются в ощутимые показатели сбоев и сбоев.
Чтобы вибрация отдельных дисков в меньшей степени передавалась через жесткую конструкцию шасси, полозья под дисками оснащаем резиновыми или металлическими демпферами.
Чтобы нейтрализовать еще один источник вибрации в системах хранения — вентиляционные модули — мы устанавливаем двунаправленные вентиляторы, а все вращающиеся элементы изолируем от корпуса шасси.
Для шпиндельных приводов минимальная тряска уже является проблемой: головки начинают путаться, и производительность существенно падает. SSD — другое дело; они не боятся вибрации.
Но надежная защита компонентов по-прежнему важна.
Возьмем процесс доставки: коробку можно уронить или неосторожно бросить, поставить набок или перевернуть.
Поэтому в нашем случае все компоненты системы хранения зафиксированы строго в трех измерениях.
Это исключает возможность их перемещения при транспортировке и защищает разъемы от выскакивания из гнезд при случайном ударе.
Когда-то мы начинали с разработки компьютерного оборудования для телекоммуникационной отрасли, где стандарты производительности по температуре и влажности традиционно высоки.
И мы перенесли их в другие помещения: металлические части систем хранения не окисляются даже при повышенной влажности – благодаря использованию никелирования и оцинковки.
Тепловой расчет наших систем хранения был разработан с упором на равномерное распределение температуры по всему корпусу — чтобы не допустить ни перегрева, ни слишком сильного охлаждения любого угла дисковой полки.
В противном случае не избежать физической деформации – пусть она и незначительна, но все равно нарушает геометрию и может привести к сокращению срока службы оборудования.
Таким образом выигрываются какие-то доли процента, но это все равно влияет на общую надежность системы.
Полупроводниковые тонкости
Дублируем важные компоненты системы хранения: если что-то выйдет из строя, всегда есть подстраховка.
Например, модули питания в младших моделях работают по схеме 1+1, а в более солидных — 2+1 и даже 3+1.
Контроллеры, которых в системе хранения не менее двух (одноконтроллерные системы мы не поставляем), также являются резервными.
В СХД 6800-й серии и выше резервирование выполнено по схеме 3+1, в младших моделях — 1+1. Есть даже зарезервированная плата управления, которая напрямую не влияет на работу системы, а нужна только для изменения конфигурации и мониторинга.
Кроме того, любые интерфейсные карты расширения для систем хранения продаются только парами, чтобы у клиента был запас.
Все компоненты — блок питания, вентиляторы, контроллеры, модули управления и т. д. — оснащены микроконтроллерами, способными реагировать на определенные ситуации.
Например, если вентилятор начинает самостоятельно тормозить, на модуль управления подается сигнал тревоги.
В результате заказчик имеет полную картину о состоянии СХД – и может при необходимости заменить некоторые компоненты самостоятельно, не дожидаясь приезда нашего сервисного инженера.
И если позволяет политика безопасности заказчика, мы настраиваем контроллеры так, чтобы они передавали информацию о состоянии оборудования в нашу техподдержку.
Ваши фишки лучше и понятнее
Мы единственная компания, которая разрабатывает собственные процессоры, чипы и контроллеры твердотельных накопителей для своих систем хранения данных.
Таким образом, в некоторых моделях в качестве основного процессора СХД (Storage Controller Chip) мы используем не классический Intel x86, а ARM-процессор от нашей дочерней компании HiSilicon. Дело в том, что архитектура ARM в системах хранения — для расчета того же RAID и дедупликации — показывает себя лучше, чем стандартный x86.
Наша особая гордость — чипы для SSD-контроллеров.
И если наши серверы могут быть оснащены полупроводниковыми накопителями сторонних производителей (Intel, Samsung, Toshiba и т.д.), то в СХД мы устанавливаем только SSD собственной разработки.
Микроконтроллер для модуля ввода-вывода (интеллектуальный чип ввода-вывода) в системах хранения данных также является разработкой HiSilicon, как и чип Smart Management Chip для удаленного управления хранилищем.
Использование собственных чипов помогает нам лучше понимать, что происходит в каждый момент времени с каждой ячейкой памяти.
Именно это позволило нам минимизировать задержки при доступе к данным в тех же системах хранения Dorado.
Для магнитных дисков постоянный контроль крайне важен с точки зрения надежности.
Наши системы хранения поддерживают систему DHA (Disk Health Analyser): сам диск постоянно записывает, что с ним происходит, насколько хорошо он себя чувствует. Благодаря накоплению статистики и построению интеллектуальных прогнозирующих моделей можно спрогнозировать переход накопителя в критическое состояние за 2-3 месяца, а не за 5-10 дней.
Диск еще «живой», данные на нем в полной безопасности – но заказчик готов заменить его при первых признаках возможной неисправности.
Рейд 2.0+
Мы также подумали об отказоустойчивом проектировании СХД на системном уровне.Наша технология Smart Matrix основана на PCIe, шине между контроллерами, которая особенно хорошо подходит для твердотельных накопителей.
Smart Matrix обеспечивает, в частности, полносвязную сеть с 4 контроллерами в нашей системе хранения данных Ocean Store 6800 v5. Чтобы каждый контроллер имел доступ ко всем дискам системы, мы разработали специальный SAS-бэкенд. Кэш, конечно, зеркалируется между всеми активными в данный момент контроллерами.
При выходе из строя контроллера сервисы с него быстро переключаются на зеркальный контроллер, а остальные контроллеры повторно подключаются, чтобы зеркалировать друг друга.
При этом данные, записываемые в кэш-память, зеркалируются для обеспечения надежности системы.
Система выдерживает отказ трех контроллеров.
Как показано на рисунке, если элемент управления A дает сбой, данные кэша контроллера B выберут контроллер C или D для зеркалирования кэша.
Когда контроллер D выходит из строя, контроллеры B и C выполняют зеркалирование кэша.
Система распределения данных RAID 2.0 является стандартом для наших систем хранения: виртуализация на уровне дисков уже давно заменила простое поблочное копирование контента с одного носителя на другой.
Все диски группируются в блоки, которые объединяются в более крупные конгломераты двухуровневой структуры, а поверх его верхнего уровня строятся логические тома, из которых составляются RAID-массивы.
Основным преимуществом такого подхода является сокращение времени перестроения массива.
Кроме того, в случае сбоя диска ребилд производится не на стоявшем все это время горячем резервном диске, а на свободном месте на всех используемых дисках.
На рисунке ниже в качестве примера показаны девять жестких дисков RAID5. При выходе из строя жесткого диска 1 данные CKG0 и CKG1 повреждаются.
Система выбирает CK для реконструкции случайным образом.
Обычная скорость восстановления RAID составляет 30 МБ/с, поэтому для восстановления 1 ТБ данных требуется 10 часов.
RAID 2.0+ сокращает это время до 30 минут.
Нашим разработчикам удалось добиться равномерного распределения нагрузки между всеми шпиндельными накопителями и SSD в системе.
Это позволяет гораздо лучше раскрыть потенциал гибридных СХД, чем обычное использование твердотельных накопителей в качестве кэша.
В системах класса Dorado мы реализовали так называемый RAID-TP — массив с тройной четностью.
Такая система продолжит работу, если одновременно выйдут из строя любые три диска.
Это повышает надежность по сравнению с RAID 6 на два десятичных порядка, а по сравнению с RAID 5 — на три.
Мы рекомендуем RAID-TP для особо критичных данных, тем более что благодаря RAID 2.0 и высокоскоростным флэш-накопителям это не оказывает особого влияния на производительность.
Вам просто нужно больше свободного места для резервирования.
Как правило, all-flash-системы используются для СУБД с небольшими блоками данных и высоким IOPS. Последнее не очень хорошо для SSD: запас прочности ячеек NAND-памяти быстро исчерпывается.
В нашей реализации система сначала собирает относительно большой блок данных в кэше накопителя, а затем целиком записывает его в ячейки.
Это позволяет снизить нагрузку на диски, а также выполнить «сборку мусора» в более щадящем режиме и освободить место на SSD.
Шесть девяток
Вышеизложенное позволяет говорить об отказоустойчивости наших систем на уровне всего решения.
Проверка реализована на уровне приложения (например, СУБД Oracle), операционной системы, адаптера, системы хранения — и так вплоть до диска.
Такой подход гарантирует, что на внутренние диски системы будет записан именно тот блок данных, который пришел на внешние порты, без каких-либо повреждений и потерь.
Это подразумевает уровень предприятия.
Для надежного хранения, защиты и восстановления данных, а также быстрого доступа к ним мы разработали ряд собственных технологий.
HyperMetro — пожалуй, самая интересная разработка за последние полтора года.
Готовое решение на базе наших СХД для построения отказоустойчивого метрокластера реализовано на уровне контроллера; для этого не требуются какие-либо дополнительные шлюзы или серверы, кроме арбитра.
Реализуется просто по лицензии: две СХД Huawei плюс лицензия — и работает.
Технология HyperSnap обеспечивает непрерывную защиту данных без потери производительности.
Система поддерживает RoW. Для предотвращения потери данных на системах хранения в любой момент используется множество технологий: различные снапшоты, клоны, копии.
На базе наших систем хранения разработаны и опробованы на практике как минимум четыре решения по аварийному восстановлению данных.
Также у нас есть решение для трёх дата-центров 3DC Ring DR Solution: два дата-центра в кластере, на третий осуществляется репликация.
Можем организовать асинхронную репликацию или миграцию со сторонних массивов.
Имеется лицензия смарт-виртуализации, поэтому можно использовать тома от большинства стандартных массивов с доступом по FC: Hitachi, DELL EMC, HPE и т. д. Решение фактически проверено; на рынке есть аналоги, но они дороже.
Есть примеры использования в России.
В результате на уровне всего решения можно получить надежность шесть девяток, а на уровне локального хранилища — пять девяток.
В общем, мы попробовали.
Автор: Владимир Свинаренко, старший менеджер по ИТ-решениям Huawei Enterprise в России Теги: #Хранение данных #ИТ-инфраструктура #Хранение данных #Huawei #Система хранения
-
Настоящие Имена Вместо Прозвищ
19 Oct, 24 -
Intel Boot Guard На Ваших Пальцах
19 Oct, 24 -
Повесть О Парадигмах Программирования
19 Oct, 24