Тупые Способы Умереть, Или Почему Рушатся Дата-Центры



Тупые способы умереть, или почему рушатся дата-центры

«Работа в дата-центре или серверной комнате чем-то напоминает езду по шоссе.

Когда дорога пуста, можно рискнуть и поехать против правил, и ничего страшного не произойдет. Но как только машин на дороге много, любой неверный маневр, необнаруженная яма или выбоина могут привести к аварии.

Аналогичная ситуация с дата-центрами и серверными комнатами: чем больше нагрузка, тем выше цена ошибки.

Сегодня я расскажу вам об ошибках при проектировании, строительстве и эксплуатации, из-за которых может произойти авария в дата-центре.



Ошибки на этапе проектирования и строительства

у меня был отдельный статья на тему ошибок проектирования.

Там в основном перечислены моменты, которые сделают эксплуатацию дата-центра неудобной, но сейчас я расскажу о том, что действительно помешает. В проекте не предусмотрены целые системы.

Некоторые считают, что дата-центр легко может обойтись без системы гарантированного электроснабжения.

то есть ДГУ.

Однажды один из заказчиков, для которого я проводил аудит проекта дата-центра, спросил, каким будет уровень отказоустойчивости Время работы без ДГУ.

Я не нашел ничего лучшего, что можно было бы назвать Tier 0. Многие воспринимают ДГС как резерв, которым при необходимости можно пренебречь – запасной.

На самом деле, к нему стоит относиться как к основному, поскольку только этот вид энергоснабжения мы можем полностью контролировать.

Единая точка отказа.

Вот возможные варианты:

  • резервации вообще нет. Тогда поломка или плановое обслуживание будут означать полную потерю элемента системы.

  • бронирование выборочное.

    Этот вариант весьма условно можно назвать надежным, поскольку уровень резервирования системы все равно будет рассчитываться исходя из минимально зарезервированного элемента.

    Например, у вас в стойке дублируются линии электропередачи, дизель-генераторные установки, распределительные щиты, PDU, а ИБП нет. Если этот ИБП выйдет из строя, то все, что было в цепочке после него, уже не сохранится.

Ошибка в расчетах.

Вот топ наиболее чувствительных неисправностей в системе распределения электроэнергии:

  • неправильная селективность.

    Селективность защищает от перегрузок и коротких замыканий.

    Для сохранения селективности необходимо снизить номинал машин от источника питания до потребителя.

    При замыкании компрессора в кондиционере отключится автоматический выключатель внутри кондиционера, а не тот, что находится в распределительном щите.

    Если селективность не соблюдена, то машина не будет выполнять свои защитные функции, и неисправность перейдет выше по цепи.

    Так, из-за перегрузки или короткого замыкания с неправильной селективностью в машинном помещении может потеряться весь силовой луч.

  • несоответствие сечения кабеля мощности машины.

    Если номинал автомата не соответствует сечению кабеля, то при превышении нагрузки автомат не сломается, а кабель начнет перегреваться или, того хуже, плавиться.

    Машины и кабели подбирайте в соответствии с таблицей расчета сечения кабеля, тока и мощности.

  • запаса мощности нет. Проектирование с учетом помех — плохая практика.

    Оборудование стало потреблять больше, чем вы рассчитывали по проекту, требовалось подключение дополнительного оборудования, потери на линии электропередачи из-за длины трасс – все это можно пережить, если добавить к расчетной мощности запас в 30%.

  • пусковые токи не учитываются.

    Оборудование с электродвигателями, насосами или компрессорами на борту создает большую нагрузку на сеть при запуске, чем во время работы.

    Если не предусмотреть это в проекте, то одновременно запускать несколько кондиционеров или чиллеров не получится.

    Система не справится с нагрузкой и машины отключатся.

  • Токи заряда аккумулятора не учитываются.

    ИБП тратит около 10% своей мощности на подзарядку аккумулятора.

    Если не учитывать эту дополнительную нагрузку, то ИБП не сможет переключиться с аккумуляторного питания на «городское»: каждый раз, когда ИБП возвращается к городскому питанию и начинает подзаряжать батарею, машины будут выбил.

  • неправильная прокладка кабелей в рукавах между помещениями.

    Не совсем о расчетах, но и о строительстве.

    Здесь есть два момента: 1. Все фазы (l1, l2, l3) должны быть проложены в одной муфте с нейтралью, иначе кабели начнут перегреваться.

    2. При использовании нескольких одножильных кабелей (несколько кабелей используются в одной фазе) следите за тем, чтобы кабели в лотках располагались в правильной последовательности (см.

    соответствующий раздел в панели управления?).

    Не нужно их скручивать или заплетать для красоты, если вы не хотите, чтобы все это перегрелось.

Теперь об охлаждении:
  • неправильная оценка уличного температурного режима.

    При проектировании за основу часто берут статистику средней температуры в конкретном городе – без учета особенностей конкретного здания и из непроверенных источников.

    Если крыша здания сильно нагревается на солнце, то реальная температура будет на несколько градусов выше.

  • плохая циркуляция воздуха между внешними блоками.

    Из-за плотного расположения и проблем со свободным прохождением воздуха внешние блоки кондиционеров начинают засасывать выходящий горячий воздух друг друга.

    На улице может быть не так жарко, но температура на входе в наружный блок будет высокой.

    Тот же результат вы получите, если разместите внешние блоки рядом с выхлопной трубой дизель-генераторной установки или над дизель-генераторной установкой, рядом с трансформаторами.

    Учитывайте, нет ли рядом с внешними блоками дополнительных источников тепла.

  • неправильно рассчитана фактическая мощность кондиционеров и холодопроизводительность.

    Потребляемая мощность кондиционеров по паспорту не всегда соответствует действительности.

    Производитель показывает красивые цифры? Найдите время самостоятельно прочитать документы и узнать, при каких условиях эти показатели будут иметь место.

    Какой будет расход при максимальной нагрузке? Если в период пиковой нагрузки кондиционеры начнут потреблять больше, чем было запланировано по проекту, то есть риск остаться без системы кондиционирования.

    Оставьте запас.

  • Аналогично и с холодопроизводительностью: в зависимости от протяженности трасс, уличной температуры и параметров эксплуатации она может меняться.



Ошибки операций

Дата-центр, построенный по образцовому проекту, может быть поврежден в результате неправильной эксплуатации.

Ниже мы рассмотрим, какие ошибки в управлении инженерной инфраструктурой могут привести к авариям.

Несбалансированная нагрузка по фазам и балкам.

Мощность кабеля и автоматических выключателей используется эффективно, если нагрузка распределяется равномерно по фазам.

При перегрузке одной или двух фаз и недогрузке одной или двух возникает так называемый перекос фаз.

Из-за этого имеющаяся мощность используется нерационально.

В худшем случае это приведет к выключению машины и перегреву кабеля.

История с лучами такая: в дата-центре с запасом электропитания 2N при отключении одного из лучей питания второй берет на себя нагрузку вышедшего из строя.

Чтобы оставшаяся балка выдержала двойную нагрузку, на каждую из них необходимо нагружать только половину своей номинальной мощности с учетом пусковых токов.

В противном случае резерв на вторую балку не поможет. Оба условия должны соблюдаться одновременно.

Мониторинг системы в максимально возможном количестве точек поможет отслеживать распределение нагрузки от трансформаторов к PDU. Как это организовать описано в этом статья .

Настройки на машинах.

Для сохранения селективности номинальная мощность машин искусственно снижается с помощью настроек.

В процессе эксплуатации, когда необходимо подключить дополнительную нагрузку, забывают о настройках и ориентируются на номинал машины.

Соответственно, если подключенная нагрузка превышает заданное значение, машина выключится.

Инструкции и регламенты технического обслуживания.

Серверная комната или дата-центр находятся в предаварийном состоянии, и инженер плохо понимает, что делать и к кому обращаться.

Еще хуже, когда дежурный на посту решает ничего не делать.

Правила и инструкции могут уберечь вас от путаницы и потери времени во время чрезвычайной ситуации.

Но регламент от регламента отличается: если он написан для галочки, никогда не обновлялся и его никто не проверял на учениях, то можно считать, что регламента нет. Даже если все схемы отработаны, регламенты и инструкции должны всегда быть под рукой (в бумажном и электронном виде), чтобы в случае аварии не пришлось тратить время на их поиск.

Повесьте плакаты с краткими инструкциями на рабочем месте инженера, где начинается операция по спасению дата-центра в случае аварии.

Разместите инструкции по эксплуатации оборудования непосредственно на корпусе оборудования.

К инструкциям можно добавить чек-листы, в которых инженер будет отмечать каждое свое действие.

Таким образом, будет меньше шансов пропустить инструкции.

Схемы расположения оборудования, которые также должны быть актуальными и доступными для инженеров, помогут быстро локализовать проблему в дата-центре.

Маркировка.

Казалось бы, какое отношение маркировка имеет к случайностям? Самый прямой.

Например, включить выключенную машину – дело пары минут. А вот если схем и разметки нет, то это превращается в настоящий квест с хорошими перспективами длительного простоя.

Или другая ситуация: для ремонта нужно отключить какое-то оборудование.

Открываем щиток, а там все машины одинаковые на вид и без опознавательных знаков.

Подумайте сами, насколько велика вероятность отключить не то.

Мониторинг.

В небольших серверных помещениях мониторинг инженерной инфраструктуры может отсутствовать как класс или контролироваться не все системы.

Тогда приходится сталкиваться со следующими ситуациями: в воскресенье вечером отключается кондиционер, но инженер узнает об этом только в понедельник утром, когда в серверной уже стоит баня.

Или в городе произошло отключение электроэнергии и дизель не завелся.

Ситуацию заметили только тогда, когда появились оповещения о проблемах с питанием одного из серверов.

В обоих случаях крупномасштабную аварию можно было бы предотвратить, если бы был настроен минимальный мониторинг с помощью SMS или оповещений по электронной почте.

Мониторинг дата-центра имеет свои нюансы: его необходимо правильно настроить.

Например, установите правильные пороговые значения.

Если монитор постоянно горит красным из-за критических ошибок, значит, мониторинг настроен неправильно.

Для инженера такой мониторинг быстро станет неинформативным, возникнут ложные срабатывания, а реальные аварии останутся незамеченными среди рутинных оповещений.



Что еще может привести к аварии?

Давайте разберемся, что может пойти не так в системе кондиционирования, электроснабжения (система распределения электроэнергии, система бесперебойного питания, дизель-генераторная установка) и система пожаротушения.

Охлаждение.

Для холодильной системы все может начаться с поломки нескольких кондиционеров, например, из-за того, что внешние блоки забиты тополевым пухом.

Если зал сильно загружен и холода уже недостаточно, возникает локальный перегрев.

Фреоновые кондиционеры очень чувствительны к температуре на входе, поэтому при ее повышении другие кондиционеры по ошибке начинают отключаться.

В результате «эффекта домино» зал останется без охлаждения.

Для чиллерных систем самое страшное — это потеря давления в контуре, например, из-за протечек.

В этом случае в дело вступает вся система, а не отдельный кондиционер.

Чтобы своевременно отслеживать такую ситуацию, следите за давлением, устанавливайте больше датчиков протечек, предусмотрите возможность подпитки системы с помощью накопительных баков и дополнительных насосов.

Бесперебойное электропитание.

Помимо выхода из строя ИБП, который можно предотвратить с помощью технического обслуживания и своевременного ремонта, существует такая интересная вещь, как несоответствие реального времени автономной работы ИБП и оценки на дисплее ИБП.

Я, конечно, говорю о том случае, когда на дисплее отображается больше, чем есть на самом деле.

Например, при обслуживании щитов между дизель-генераторной установкой и ИБП, когда вся нагрузка поддерживается аккумулятором, служба эксплуатации ожидает один раз, а в реальности получает на пару минут меньше.

Избежать такого конфуза можно, если периодически проводить «контролируемый» разряд аккумулятора с построением соответствующих графиков.

На основании этого графика рассчитывается срок службы батареи и калибруются показания на экране ИБП.

На всякий случай лучше округлить полученное время в меньшую сторону.

Это как с часами: лучше поторопиться и раньше придешь на встречу, чем опоздаешь.

Гарантированное энергоснабжение.

Отказы могут возникнуть на любом этапе работы дизель-генераторной установки:

  • при отключении основного питания не погас сигнал на запуск дизель-генераторной установки;
  • Дизель-генераторная установка не запустилась;
  • запустился, но не взял нагрузку;
  • Дизель-генераторная установка сработала и выключилась;
  • система пожаротушения сработала ложно по датчику контейнера;
  • топливо закончилось или было некачественного.

  • Чтобы дизель-генераторные установки работали без неожиданностей, проводите регулярные тестовые прогоны под нагрузкой .

Пожаротушение:
  • ложная тревога системы.

    Обезопасить себя от этого можно, переведя систему в полуавтоматический режим.

    То есть, прежде чем спустить газ, специально обученный человек проверяет, действительно ли есть проблема в месте срабатывания датчика.

    Мало ли: кто-то случайно задел датчик под фальшполом, и сработала сигнализация.

  • Система не сработала, когда это было необходимо.

    Лечится с помощью анализов.

  • ошибки в направлениях: датчик сработал в одном месте, но газ пошел в другое помещение.

    Решение одно – тестирование.

На этом остановлюсь, хотя, конечно, это не все причины, по которым дата-центр может «отлежаться».

Поделитесь своими историями в комментариях.

Если произошло ДТП и причину выяснить не удалось, напишите сюда или на б> [email protected] .

Давайте попробуем разобраться вместе.

Другие статьи на тему проектирования и эксплуатации дата-центров: Мониторинг инженерной инфраструктуры дата-центра.

Часть 1. Основные моменты Мониторинг инженерной инфраструктуры дата-центра.

Часть 2. Система электроснабжения Обслуживание инженерных систем дата-центра: что включить в договор Ошибки в проекте дата-центра, которые вы заметите только на этапе эксплуатации Путь электричества в дата-центре Как протестировать дизель-генераторные установки в дата-центре Опыт DataLine: как мы обучаем дежурных инженеров для наших дата-центров Опыт DataLine: работа службы технической поддержки Теги: #it-инфраструктура #дата-центр #Хранение данных #DataLine #дата-центры #аварии в дата-центрах #аварии в дата-центрах #сервер #работа дата-центра #линия данных #линия данных #линия данных #линия данных #проектирование дата-центра

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.