Сегодня инфраструктура электропитания и охлаждения центров обработки данных генерирует примерно в три раза больше данных и сообщений, чем 10 лет назад. Традиционные инструменты удаленного мониторинга не рассчитаны на такой поток информации.
Попробуем разобраться, как из большого объема полученных данных извлечь ценную информацию и повысить эффективность работы дата-центра, и какие потенциальные возможности это открывает.
Предыдущие инструменты мониторинга существенно отличались от современных, использующих облачные вычисления, аналитику и мобильные приложения.
Навигаторы и фитнес-трекеры стали обычными гаджетами, однако в большинстве дата-центров до сих пор не используются современные технологии, такие как анализ больших данных и машинное обучение, хотя они могут буквально революционизировать работу дата-центров.
По аналогии с популярным сейчас термином «цифровая трансформация» мы будем называть новое поколение мониторинга цифровым мониторингом.
Функция | Традиционный удаленный мониторинг | Цифровой дистанционный мониторинг |
Онлайн режим | Нет | Да |
Удаленная диагностика | Обычно нет | Да |
Центр сетевых операций (NOC) | Да | Да |
Отслеживание инцидентов | Редко | Да |
Аналитика | Нет | Да |
Мобильное приложение с живыми уведомлениями | Нет | Да |
Чат | Нет | Да |
Мониторинг в реальном времени | Нет | Да |
Безопасное сетевое соединение | Нет сети | Да |
Облачное хранилище данных | Нет | Да |
Статус «в разработке» | Нет | Да |
Поддерживаемые устройства | Обычно ИБП | Все SNMP-устройства |
Традиционный мониторинг не является онлайн-сервисом и не работает в режиме реального времени.
Он только уведомляет вас об изменении статуса, обычно по электронной почте.
Цифровой мониторинг работает онлайн: постоянное подключение к дата-центру (обычно через шлюз) позволяет работать в режиме реального времени.
Кроме того, он использует ИТ-сервисы, такие как облачное хранилище и анализ данных.
Предыдущие инструменты мониторинга были основаны на ПК, позволяли собирать и представлять ограниченный объем данных и, как правило, обеспечивали лишь возможность реагировать на ситуацию в зависимости от интерпретации полученной информации.
Цифровой дистанционный мониторинг снимает эти ограничения.
Кто владеет информацией.
Сегодня на мониторинг центров обработки данных влияют следующие тенденции: высокопроизводительные и экономичные встроенные системы, кибербезопасность, облачные вычисления, анализ больших данных, мобильные вычисления, машинное обучение.
Встроенные системы используются практически во всем оборудовании ЦОД, включая системы охлаждения, ИБП, пульты дистанционного управления, чиллеры и т. д., контролирующие его работу.
Они предоставляют данные для мониторинга.
За последние годы эти системы были значительно улучшены с точки зрения вычислительных и коммуникационных возможностей, а также хранения данных.
При этом они стали дешевле.
В результате устройства, используемые в центрах обработки данных, генерируют гораздо больше данных — как минимум в три раза больше, чем всего десять лет назад.
Чем больше данных, тем больше полезной информации они несут.
В то же время кибербезопасность становится все более серьезной проблемой.
И это касается не только уязвимости ИТ-оборудования, но и систем инфраструктуры дата-центров.
Цифровой удаленный мониторинг и другие облачные сервисы должны учитывать эти риски, начиная с этапа проектирования и реализуя политики безопасности.
Обычно шлюз (обычно программный) используется в качестве точки входа в сеть, и все устройства работают через него.
Рекомендуемая архитектура цифрового мониторинга.
Облака — это высокомасштабируемый метод хранения и обработки данных.
Облачные вычисления являются основой услуг удаленного мониторинга.
Такие услуги, как прогнозная аналитика и машинное обучение, могут работать в облаке, раскрывая потенциал удаленного мониторинга центров обработки данных и предоставляя более ценные возможности.
Используя машинное обучение, вы можете, например, смоделировать PUE очень сложного центра обработки данных, такого как центр обработки данных Goggle.
Аналитика больших данных может показаться экзотикой, но сегодня она используется в таких услугах, как прогнозное обслуживание и планирование мощности.
Необходимость в нем возникает, когда объемы данных вырастают до петабайтных размеров, становятся неструктурированными или требуют обработки в реальном времени.
С аналитикой данных связаны методы машинного обучения, которые позволяют делать прогнозы на основе ранее полученных результатов.
Автоматизация и мобильные приложения упрощают работу администраторов центров обработки данных и позволяют им делать больше с меньшими затратами.
Не утоните в море данных
С ростом объема данных и информационных потоков администраторам центров обработки данных становится все труднее принимать правильные решения.Вот лишь некоторые из проблем:
- Несколько сообщений с одного устройства, когда одного достаточно.
Излишняя информация вызывает утомление оператора и в конечном итоге будет проигнорирована.
- Каждый блок питания или охлаждающее устройство обычно имеет свои собственные элементы управления.
Отсутствие единой платформы мониторинга и стандартной архитектуры усложняет работу дата-центров, где зачастую не хватает персонала.
- Обострить проблему и передать ее соответствующему специалисту становится сложнее.
Единая платформа мониторинга упрощает выявление и устранение проблем.
Служба цифрового удаленного мониторинга помогает преодолеть эти проблемы и обеспечивает следующие преимущества:
- Сокращение времени простоя/восстановления.
- Оптимизация операций.
- Снижение затрат на поддержку и обслуживание оборудования.
- Повышение энергоэффективности.
- Улучшенная масштабируемость.
Центр мониторинга
Цель центров мониторинга — снизить риск простоев за счет выявления и устранения одной ситуации до того, как она приведет к другой.
В связи с этим услуга цифрового дистанционного мониторинга должна отвечать следующим требованиям:
Центр сетевых операций (NOC).
В нем работают специалисты по поддержке центров обработки данных.
- Эксперты NOC, диагностирующие инциденты в центрах обработки данных, должны иметь подготовку по информационной безопасности и большой опыт работы.
Анализ и документирование инцидентов снижает вероятность будущих ошибок.
- Любая цифровая система дистанционного мониторинга должна включать документацию всех инцидентов.
- Сервис должен сократить время решения проблемы за счет тревожных сообщений, удаленного устранения неполадок и прозрачности жизненного цикла устройства.
Устранением неполадок должны заниматься эксперты, которые контролируют центр обработки данных 7 x 24.
- У этих же экспертов должен быть список контактов на случай критических событий.
Хорошо, если этот список будет постоянно обновляться в мобильном приложении.
- Знание статуса всех устройств увеличивает шансы быстро устранить проблему или хотя бы понять ее причину.
- Чтобы снизить потребность обслуживающего персонала возиться с оборудованием, полезно использовать прогнозную аналитику и удаленную диагностику.
Сервисный инженер должен знать, что именно ему нужно будет заменить или починить, чтобы больше не посещать объект.
Какой должна быть услуга удаленного цифрового мониторинга?
Следующие требования помогут вашей службе удаленного цифрового мониторинга повысить эффективность работы и помочь ее сотрудникам сосредоточиться на наиболее важных задачах.
- Мобильное приложение может автоматически генерировать заявку на неисправность.
Это позволит сэкономить время и избежать обращений в службу поддержки, объясняя ситуацию несколько раз разным специалистам.
Мобильное приложение позволит менеджерам и администраторам центров обработки данных немедленно получить доступ к данным о состоянии центра обработки данных из любого места и в любое время.
также могут быть полезны.
Чаты и мессенджеры не только помогают работать в команде, но и быстро связываться со специалистами НОК.
Быстрый запуск означает, что примерно за 30 минут вы сможете установить шлюз, настроить автоматическое обнаружение устройств, зарегистрировать программное обеспечение, настроить приложение и начать мониторинг вашего дата-центра.
Настройка всех устройств для мониторинга вручную означает потерю большого количества времени.
Это также увеличивает вероятность ошибок.
Система цифрового мониторинга использует протокол (SNMP) для автоматического обнаружения критически важных для инфраструктуры устройств.
Однако устройства Modbus TCP обычно не распознаются автоматически — требуется файл определения устройства (DDF).
Обычно шлюзы сканируют заданный диапазон IP-адресов, распознают соответствующие устройства и предоставляют эти данные пользователю.
События обрабатываются по приоритету – самые критичные в первую очередь.
Такая практика снижает нагрузку на операторов центров обработки данных, которые знают, что эксперты NOC будут предупреждены и поймут ситуацию, когда произойдет несколько событий одновременно.
Анализ корреляций и причин событий позволяет оценить многочисленные сигналы тревоги, минимизировать возможные причины и предложить решения.
Этот процесс корреляции может выполняться экспертами NOC или реализовываться как комбинация машинного обучения и экспертной оценки.
Консолидация сигналов тревоги превращает несколько сообщений с одного устройства в один инцидент. Это позволит вам не тратить время на несколько одинаковых сообщений.
Более того, по инциденту можно автоматически сформировать запрос на устранение неполадок, сообщить, кто сейчас занимается проблемой и как долго, что еще не было сделано, и отслеживать ход работы до окончательного решения.
Контекст тревожных сообщений может содержать полезную информацию, такую как источник информации (например, номер стойки), к каким системам она относится, что именно следует проверить.
Всю эту информацию можно получить в мобильном приложении.
Тот, кто пытался найти решение проблемы в Интернете, наверняка знает, сколько сообщений от разных пользователей приходится изучать, чтобы найти правильный ответ. Подобный «краудсорсинг» занимает много времени.
Службы удаленного цифрового мониторинга должны дополняться собственными онлайн-сообществами.
Обычно к простою приводит не одно событие, а целая последовательность событий.
Ээнергоэффективность
Чем больше устройств контролируется, тем больше возможностей для повышения энергоэффективности центров обработки данных.Однако, чтобы сделать полезные выводы об эффективности ЦОД, необходимо, как минимум, измерить нагрузку на выходе ИБП.
Не зная базового энергопотребления ИТ-оборудования, невозможно определить его потребности в охлаждении.
Например, если чиллер начинает потреблять больше энергии, неясно, является ли это проблемой чиллера или результатом повышенной нагрузки на ИТ.
Имея более полные данные, вы сможете сравнить суммарное энергопотребление всех устройств и параметры охлаждения, а также выявить аномалии.
PUE количественно определяет избыточную мощность для данной ИТ-нагрузки.
Еще более эффективным методом является измерение PUE в реальном времени .
При правильной реализации этот подход может генерировать отчеты о тенденциях в области энергоэффективности и генерировать сообщения при изменении условий.
Более того, эффективная система позволяет выявить источники проблем и исправить ситуацию.
Мониторинг в этом случае может осуществлять персонал НОК.
Мониторинг PUE в режиме реального времени.
Масштабируемость
Масштабируемость — это способность системы удаленного цифрового мониторинга контролировать все большее количество устройств (узлов).В зависимости от архитектуры системы это могут быть тысячи устройств.
Для небольших дата-центров с ИТ-нагрузкой до 500 кВт масштабируемость обычно не является проблемой, в отличие от крупных дата-центров, где количество устройств может достигать сотен тысяч, а показания снимаются каждые несколько секунд. В этом случае система мониторинга должна использовать горизонтально масштабируемую облачную архитектуру.
Облачный сервис позволяет автоматически добавлять вычислительные узлы для обработки дополнительных данных.
Перспективным направлением являются технологии Интернета вещей (IoT).
Новые подходы к работе
В будущем дата-центры будут гораздо меньше зависеть от «человеческого фактора» — возможных ошибок.В этом помогут автоматизация и машинное обучение.
Чем больше данных о причинах простоя собрано, тем лучше система мониторинга сможет прогнозировать вероятность простоя и рекомендовать меры по его предотвращению.
Эффективность работы центров обработки данных можно повысить за счет более точных моделей и накопления данных о реальной работе различных центров обработки данных.
Модель центра обработки данных с использованием машинного обучения будет иметь достаточно информации для точной настройки системы охлаждения и минимизации энергопотребления.
Моделирование также позволит прогнозировать потребление электроэнергии.
Через мобильное приложение администратор дата-центра получит уведомление, если что-то пойдет не так, и увидит, какие действия ему необходимо предпринять, чтобы исправить ситуацию.
В более сложных процедурах можно использовать технологии виртуальной реальности.
Сбор разнообразных данных позволит дата-центру перейти от планового обслуживания к ситуационному обслуживанию.
Многочисленные датчики и алгоритмы помогут прогнозировать отказы компонентов, сделают генерируемые сообщения более понятными и, в конечном итоге, снизят затраты на техническое обслуживание.
А аналитика больших данных позволит производителям повысить надежность выпускаемых компонентов.
Служба цифрового удаленного мониторинга автоматически сформирует задания для выездных инженеров.
Системы жизнеобеспечения дата-центра состоят из сложного оборудования и требуют особого внимания.
Это системы холодоснабжения и кондиционирования, системы пожаротушения, электроснабжения, телекоммуникаций и структурированные кабельные сети.
В Дата центр , построенный в соответствии с требованиями Tier III, обслуживание или ремонт любого элемента инфраструктуры может осуществляться без остановки работы дата-центра и без снижения эксплуатационной мощности: все оборудование резервируется по системе N+1, что позволяет нам говорят о доступности объектов на уровне 99,982%.
В конечном итоге все это приводит к сокращению простоев дата-центра и повышению уровня его надежности.
Система мониторинга дата-центра помогает повысить эффективность работы за счет информационной поддержки ИТ-подразделения.
Задача современной системы мониторинга – не просто зафиксировать нештатную ситуацию и оперативно оповестить о ней, а обеспечить упреждающий мониторинг и аналитику для предотвращения инцидентов.
Например, при выходе из строя аппаратного компонента такая система немедленно автоматически инициирует процесс его замены, вплоть до запроса покупки нового, если это необходимо.
Сервис цифрового удаленного мониторинга позволит вам использовать ценные аналитические и ситуационные возможности на еще более высоком уровне.
Это будущее наступит очень быстро.
Теги: #Хранение данных #Хостинг #дата-центр #ruvds #it-инфраструктура #Хранение данных
-
Сотрудники И Социальные Сети
19 Oct, 24 -
Новый Мировой Рекорд По Поимке Хакеров
19 Oct, 24 -
Монетизация Блога: Продажа Контента.
19 Oct, 24 -
Радио-Э №16
19 Oct, 24 -
Я Изучаю Api Google Reader.
19 Oct, 24