Сегодня в ИТ-инфраструктуре, с широким распространением виртуализации, системы хранения данных являются ядром, хранящим все виртуальные машины.
Выход из строя этого узла может полностью остановить работу вычислительного центра.
Хотя значительная часть серверного оборудования обладает отказоустойчивостью в том или ином виде «по умолчанию», именно из-за особой роли систем хранения внутри дата-центра к ней предъявляются повышенные требования по «живучести».
Самый эффективный метод обеспечения отказоустойчивости в ИТ — использование нескольких копий оборудования и программного обеспечения (в простейшем случае — дублирование).
Разумеется, систему хранения можно полностью дублировать.
И для аварийного восстановления используется именно такой подход. Но не все компании могут позволить себе такое решение.
Речь идет не только об удвоенной стоимости оборудования, но и о других затратах на организацию такого решения и его дальнейшую поддержку.
Однако возможность дублирования оборудования не заменяет необходимости обеспечения отказоустойчивости на компонентном уровне.
В частности, в СХД используется резервирование блоков питания, модулей охлаждения, накопителей и, конечно же, контроллеров.
Все это уже давно стало обычным явлением.
Сложно найти системы хранения без использования подобной конструкции.
Ксан здесь не исключение.
Но в этой статье мы хотим поговорить о том, что не сразу очевидно и в то же время направлено в первую очередь на повышение отказоустойчивости системы в целом.
Модули охлаждения
Очень часто в Система хранения в корпусах 2U-3U используются комбинированные модули, объединяющие блоки питания и вентиляторы.С одной стороны это удобно, потому что.
Обслуживать нужно только один блок.
С другой стороны, при выходе из строя системы охлаждения питание может быть принудительно отключено во избежание перегрева.
И вроде бы не самая критическая ситуация возникнет, но добавлять уязвимости СХД явно не стоит. Охлаждение в СХД Qsan организовано в виде отдельных модулей с возможностью горячей замены, независимых от блоков питания.
На самом деле блоки питания имеют собственные вентиляторы, предназначенные для обдува воздухом самих блоков питания.
Модуль охлаждения содержит два независимых вентилятора, защищающих друг друга.
Таких модулей в системе хранения два: справа и слева – для эффективного обдува всех компонентов.
Если один из вентиляторов выходит из строя, все остальные автоматически увеличивают скорость, чтобы компенсировать возникший недостаток воздушного потока.
Именно поэтому неисправность вентилятора не влечет за собой риска перегрева всего устройства.
Топология подключения полки расширения
Классическая схема подключения полки расширения хранилище означает топологию, называемую каскадом.В этом случае соответствующие контроллеры полок и системы хранения данных соединяются между собой одним кабелем SAS. В результате получается 2 кабеля для системы с двумя контроллерами.
Если вам нужно подключить вторую, то она подключается аналогично первой полке.
И так далее.
Преимуществом данной топологии является простота реализации в оборудовании.
Обратной стороной будет некоторая уязвимость к внезапному разрыву цепочки SAS из-за перекрестного отказа неподключенных контроллеров хранения и полки или из-за потери питания одной из полок расширения в середине цепочки.
Результатом станет потеря доступа к части накопителей и возможный крах RAID-группы, если она «растечется» по нескольким корпусам.
Qsan имеет защиту от перекрестного отказа контроллеров в виде внутреннего логического соединения контроллеров через объединительную плату хранилища.
Те.
Контроллер хранилища видит не только напрямую подключенный к нему JBOD-контроллер, но и «соседний» контроллер через специальный канал в объединительной плате.
В результате, если такая ситуация произойдет и никто физически не выдернет SAS-кабели между СХД и полкой, то доступ ко всем дискам сохранится.
Для защиты от обрыва цепи SAS, например, из-за потери питания в полке расширения, обычно используется другая топология подключения – обратный каскад. В этом случае СХД подключается напрямую к первой и последней полке в цепочке, получая доступ к накопителям с обеих сторон.
Если вам нужна более надежная защита, вы можете создать более крупные конфигурации, используя, например, древовидную топологию.
Или еще больше усложнить, объединив упомянутые топологии.
Это возможно благодаря большому количеству разъемов SAS на устройствах (по 2 на каждый контроллер СХД и по 5 на каждый контроллер JBOD) с автоматическим определением режимов работы ввода/вывода.
Главное, чтобы сам администратор не запутался.
И система хранения сможет правильно настроить конфигурацию.
Быстрое восстановление
Наличие в системе дисков горячего резервирования существенно повышает надежность хранения информации.Однако сам факт выделения таких дисков не означает стопроцентной защиты.
Дело в том, что процесс восстановления достаточно трудоемкий и зачастую занимает много времени.
Интенсивность труда обусловлена постоянным доступом к основным данным.
Те.
Система наряду со своей текущей работой должна еще и копировать данные на новый диск.
А длительность ребилда напрямую зависит от емкости хранилища и его скоростных характеристик.
Поскольку система ничего не знает о реально занятом дисковом пространстве, в процессе ребилда она просто копирует все: блок за блоком.
В результате восстановление современного диска большой емкости емкостью 10+ ТБ при серьезной нагрузке на хранилище может легко занять неделю или больше.
Также следует иметь в виду тот факт, что при восстановлении существенно возрастает вероятность выхода из строя других накопителей из-за возросшей нагрузки на них.
А это уже может представлять серьезную опасность, если будет использоваться, например, RAID5. В качестве решения этой проблемы многие разработчики систем хранения озабочены ускорением процесса восстановления.
Для этого можно использовать разные подходы, но суть одна — копирование при перестроении только реально занятых блоков.
Ксан тоже не остался в стороне от этой проблемы.
Система хранения данных этого производителя с активированной опцией Быстрое восстановление система отслеживает блоки, используемые для записи, тем самым имея возможность в случае выхода из строя диска скопировать на новый накопитель только их.
Опция быстрого восстановления по умолчанию не включена при создании новых томов, потому что.
ее использование влияет на производительность, особенно при операциях случайной записи, потому что:
- Необходимо отслеживать записи в блоках;
- Во время ребилда контрольные суммы нераспределенного пространства не пересчитываются, поэтому при записи новой записи в эту область необходимо сначала ее «инициализировать».
А вот для файловых или почтовых серверов такая опция будет очень полезна.
Вместо заключения
Каждый производитель систем хранения предполагает надежность своих устройств.И если нет фатальных просчетов при разработке устройств и невероятного стремления к экономии в процессе их производства и тестирования, то в целом с вендором можно договориться.
Однако вам необходимо понимать:
- базовая отказоустойчивость системы хранения — это, прежде всего, способ продолжать иметь доступ к данным в случае выхода из строя какого-либо компонента(ов);
- дополнительные возможности отказоустойчивости (подобно описанным выше) — это исключает некоторые виды ошибок и увеличивает ваши шансы получить доступ к данным;
- К сожалению, 100% надежности не бывает. Но, чтобы максимально приблизиться к нему, большинство здравомыслящих производителей систем хранения (и Ксан среди них) прилагают все усилия для постоянного улучшения своей продукции как в аппаратном, так и в программном обеспечении.
Теги: #Хранение данных #Виртуализация #ИТ-инфраструктура #Хранение данных #Системы хранения #Системы хранения данных #SAN #qsan #qsan #qsan
-
Разработка Веб-Приложений
19 Oct, 24 -
Новые Решения Hp Для Архитектуры Flexnetwork
19 Oct, 24 -
Макбунту :)
19 Oct, 24 -
Шамун - Что Это Было?
19 Oct, 24