Надежность И Долговечность Серверного Оборудования

Я решил написать эту статью после прочтения публикации «HP, Dell и IBM: компоненты, отвечающие за надежность серверов» , потому что по некоторым моментам у меня другое мнение.

Данная статья не претендует на новаторские подходы, а просто описывает накопленный опыт и, надеюсь, предотвратит распространенные ошибки.

Итак, начнем с того, что попытаемся разобраться, зачем серверам бесперебойное обслуживание? На самом деле бесперебойная работа не нужна серверам, а нужны сервисы, которые эти серверы предоставляют. Наилучшую непрерывность обеспечивают только распределенные системы, способные работать независимо друг от друга с автоматическим переключением между ними (для скорости) и географически разделенные (устойчивость к катастрофам).

Но это выдвигает особые (не всегда выполнимые) требования к программному обеспечению.

Недостатками таких решений являются повышенная стоимость, проблемы с репликацией данных и передачей состояния для плавного перехода на резервную систему.

Дополнительным преимуществом является то, что при правильной реализации системы можно повысить производительность — клиенты распределяются между двумя и более локациями, и в случае сбоя они перераспределяются.

Но есть задачи настолько критичные и специфичные, что требуют специальных бесперебойных серверов; Для них изготавливаются специальные серверы, например, мейнфреймы, с возможностью горячей замены всех компонентов, включая процессоры, память и даже материнские платы.

Но такие решения стоят гораздо дороже обычных серверов, и те, кто их покупает, понимают, зачем это нужно.

Вернемся к серверам начального и среднего уровня.

Возможность горячей замены компонентов существенно повышает непрерывность работы сервера.



Блоки питания с возможностью горячей замены

В моей практике сгоревших блоков питания (блоков питания) было немного, но наличие блоков питания в оперативно заменяемом сервере, подключенном по схеме N+N, во многих случаях значительно повышает бесперебойность работы сервера.

Если сервер имеет более двух блоков питания, то часто реализуется схема N+1, которая не позволяет питать сервер от двух независимых источников или линий электропередачи.

Электропитание с двумя независимыми линиями, подведенными к стойке, повышает бесперебойность в различных ситуациях, например, при техническом обслуживании или выходе из строя систем электроснабжения в дата-центре.

Был случай, когда в сервере вышел из строя блок питания и образовалось короткое замыкание, что привело к срабатыванию защиты PDU и его отключению; соседние серверы с питанием по схеме 1+1, также подключенные к другому PDU, продолжали работать.

Резервирование электропитания позволяет изменить подключение сервера к электросети, не прерывая его работу, например, оптимизировать прокладку кабелей (конечно, при установке сервера необходимо правильно прокладывать кабели, но мы не живут в идеальном мире).

Вопреки заблуждению, сертификация 80 Plus свидетельствует об энергоэффективности блока питания, а не обязывает производителя обеспечивать какой-либо уровень надежности.

Кроме того, резервирование источника питания предотвращает большинство проблем, связанных с силовыми кабелями.

Плохой контакт некачественных кабелей, случайное выдергивание их персоналом во время работы.

Если у вас сервер с одним блоком питания, важнее использовать для него качественный и неизношенный кабель, который плотно входит в розетку и не издает посторонних звуков (тресков) при нагрузке - замена невозможна без остановки сервера .

В случае сервера с резервными источниками питания плохой контакт кабеля может привести к выходу из строя источника питания.



Диски горячей замены

Горячую замену дисков можно осуществить практически со всеми вариантами интерфейса.

Конечно, есть некоторые ограничения.

IDE-устройства редко переносят отключение/подключение второго устройства на кабель — велик риск исчезновения работающего устройства из системы.

Основная проблема интерфейса IDE заключается в том, насколько правильно операционная система обрабатывает это событие.

Поскольку IDE не поддерживает горячую замену, в большинстве случаев необходимо вручную запустить сканирование устройства для выявления нового оборудования.

Важным моментом является подключение/отключение интерфейса к обесточенному диску (подключение: сначала интерфейс, потом питание, отключение: сначала питание, потом интерфейс).

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: При отключении/подключении IDE-устройств вы делаете это на свой страх и риск - никто не гарантирует дальнейшую работоспособность оборудования или стабильность ОС.

Интерфейсы FC, SAS, SATA (AHCI) — полная поддержка дисков с возможностью горячей замены; проблемы могут возникнуть в операционной системе.

Если контроллер диска SATA находится в режиме совместимости с IDE, возможно, вам придется запустить сканирование шины вручную.

В режиме AHCI в большинстве случаев диск определится автоматически.

Я рекомендую использовать AHCI, если ваша ОС это позволяет, потому что… этот режим также повышает производительность диска; TRIM поддерживается только в этом режиме работы контроллера.

При отключении дисков для продления срока их службы рекомендую сначала отключать их программно и извлекать после остановки шпинделя, т.е.

примерно через 30 секунд после выключения для дисков 7200RPM. Если диск невозможно отключить программно и он установлен в корзину горячей замены, я рекомендую вытащить диск на минимальное расстояние, на котором диск будет отключен, дождаться остановки шпинделя и вынуть его полностью.

В большинстве систем это расстояние, на которое ручка корзины полностью втянута.

Конечно, эти действия не имеют практического смысла, если диск вышел из строя, но возможно, он просто завис и вам его не заменят по гарантии и придется использовать его в некритическом оборудовании.

Также важно понимать, что диск входит в состав RAID или как отдельное блочное устройство.

При использовании отдельного диска его необходимо предварительно отключить во избежание сбоев в работе ОС и ПО.

Даже если диск в данный момент не используется, после извлечения смонтированного диска часто наблюдаются лаги всей ОС.

Разумеется, диск, на котором установлена ОС, невозможно удалить без заморозки.

Большинство серверов позволяют подсвечивать диск индикатором по команде с сервера; если возможно, используйте эту функцию, чтобы свести к минимуму ошибочное удаление диска.

Например, на серверах SuperMicro номер корзины указан на самой корзине и может не совпадать с номером слота на объединительной плате.

У многих производителей такая же проблема.

Также перед отключением желательно получить информацию о диске (модель, емкость, серийный номер) для сравнения сразу после извлечения диска.

Во многих случаях, если вы по ошибке извлечете другой диск, это немедленно устранит ошибку, а иногда даже предотвратит неисправность или потерю данных.

В случае использования RAID-массивов рекомендую отключать диски программно (помечать их как плохие), перед удалением это исключит снижение производительности дисковой системы сразу после отключения диска.

Проблем с SSD дисками при частом горячем подключении/извлечении я не заметил, хотя несколько использовал в этом режиме.

На этом первая часть заканчивается, в следующих частях про RAID-массивы, память для серверов, системы удаленного управления и важность мониторинга.

Теги: #Оптимизация серверов #Системное администрирование #Администрирование серверов #надежность #серверы #обслуживание ИТ-инфраструктуры

Вместе с данным постом часто просматривают: