Продолжаем тему аварий на серверных фермах.
Причины выхода из строя мощных инфраструктур дата-центров самые разные: перебои в подаче электроэнергии, проблемы с системами охлаждения, проблемы с резервными дизель-генераторами, оборудованием, неправильное обслуживание того же оборудования и т. д. Не стоит забывать и о человеческом факторе.
Как говорится, на ошибках учишься, и хорошо, если не учишься на своих.
Операторы серверных ферм могут получить полезные уроки о том, как подготовиться к потенциальной катастрофе, устранить ее последствия и вообще избежать ошибок, которые влекут за собой значительные убытки.
Кожеко Пер1
Дата-центр Cogeco Peer1 в Атланте отключился из-за проблем с системой резервного электропитания.
Cogeco Peer1 (Атланта, США), предоставляющая услуги управляемого хостинга, стала центром обсуждений и критики в социальных сетях после того, как ее серверная ферма вышла из строя.
Многие клиенты этого поставщика услуг выразили свое «чувство» к компании, многие пригрозили сменить провайдера и перенести все свои рабочие нагрузки на AWS. AWS с радостью присоединилась к такого рода разговорам и попыталась переманить недовольных клиентов Cogeco Peer1.
Ферма серверов вышла из строя из-за частичного отключения электроэнергии.
На устранение проблемы ушло почти пять часов; началось все в половине второго, а на полную мощность дата-центр заработал только в семь вечера.
Из-за сбоя в электроснабжении инфраструктура на отдельных участках серверной фермы была полностью отключена.
Как сообщила Cogeco Peer1, причиной простоя стал сбой в системе резервного электроснабжения дата-центра.
TeliaSonera и «человеческий фактор»
TeliaSonera предоставляет услуги телекоммуникаций и доступа к сети.
Недавно из-за ошибки инженера серверной фермы при настройке маршрутизатора в дата-центре многие пользователи известных интернет-сервисов, веб-сайтов и приложений, таких как WhatsApp, Reddit, CloudFlare и AWS, понесли убытки.
Большая часть трафика была перенаправлена в Гонконг вместо того, чтобы идти в Европу.
Миллионы пользователей сами сталкивались с этой ошибкой при подключении к Интернету и работе с популярными приложениями.
Сначала эксперты предположили, что проблема вызвана повреждением трансатлантического магистрального телекоммуникационного кабеля.
На устранение проблем на ферме серверов TeliaSonera ушло два часа.
Клиентам были разосланы письма с извинениями, а в блоге компании появилась запись о том, что компания планирует приложить все усилия для автоматизации своих систем.
Такое решение сведет к минимуму время простоя из-за человеческого фактора.
Многие компании часто умалчивают о причинах, которые приводят к сбоям и простоям серверных ферм.
Владельцы дата-центров очень неохотно делятся информацией об авариях на своих объектах.
Сайт одной из крупнейших американских кредитных компаний Lending Club отключился.
За время своей работы (с 2006 года) компания выдала кредитов на сумму $18 млрд, и неудивительно, что этот простой сильно обеспокоил инвесторов компании.
Отключение наблюдалось на прошлой неделе; Причиной назвали проблему в дата-центре (не уточняется).
Дата-центр простаивал несколько часов.
Кстати, по словам компании Emerson, самой распространенной причиной сбоев в дата-центрах является выход из строя батареи ИБП.
В этом исследовании приняли участие 450 операторов серверных ферм.
Вторая проблема – перегрузка ИБП, а также ошибки при монтаже электрических соединений, неисправности АВР и короткие замыкания.
Половина проблем связана с тем же человеческим фактором.
Треть сбоев дата-центров происходит «благодаря» системам охлаждения, в 35% случаев из-за утечек воды.
Если говорить о нашем рынке (украинском), то владельцы очень неохотно делятся информацией о произошедших сбоях и причинах выхода инфраструктуры их серверных ферм в офлайн.
А начинается все, как ни банально, с проекта размещения дата-центра.
Старые здания, изношенные строительные конструкции, замаскированные трещины в перекрытиях, несущая стена с проломом полметра на метр.
Тополевой пух, который засоряет теплообменники наружных агрегатов летом, а в Зимой эти же агрегаты часто останавливаются из-за замерзания или заклинивания вентиляторов из-за падающих в них с крыши сосулек.
Экономия на системе вентиляции, а именно установка в нее обогревателя, приводит к стеканию оттуда конденсата зимой.
Сбои в работе ИБП возникают и из-за подключения неосновной нагрузки к участку электрической цепи серверной фермы.
Мощный кондиционер в кабинете директора, электрочайник в секретарше Глаши и т. д. Вот лишь краткий список причин, которые выводят серверные фермы из строя.
Теги: #простой #аварии в центрах обработки данных #серверные фермы
-
Делиться - Это...
19 Oct, 24 -
Еще Одна Пасхалка...
19 Oct, 24