Несчастные Случаи «На Часы Не Смотрят»: Статистическое Обоснование Режима Работы Круглосуточной Техподдержки



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

На основании многочисленных операционных оценок центров обработки данных по всему миру Uptime Institute отметил, что уровень укомплектованности центрами обработки данных сильно варьируется от места к месту.

Это наблюдение несколько озадачивает, но не удивительно.

Хотя кадровое обеспечение является важным оперативным фактором для центров обработки данных, пытающихся поддерживать операционную эффективность, многие другие факторы влияют на решения организаций о необходимом уровне персонала.

Факторы, которые могут повлиять на общую численность персонала, включают сложность центра обработки данных, текучесть кадров, количество необходимых часов поддержки, количество контрактов с подрядчиками и бизнес-цели доступности.

Затраты также вызывают беспокойство, поскольку каждый сотрудник — это прямые затраты центра обработки данных.

Из-за этих многочисленных факторов численность персонала центров обработки данных должна постоянно пересматриваться, чтобы обеспечить эффективную поддержку по разумной цене.

Uptime Institute часто получает вопрос: «Какой уровень персонала подходит для моего центра обработки данныхЭ» К сожалению, не существует лаконичного ответа, который был бы универсален для каждого дата-центра.

Правильное кадровое обеспечение зависит от ряда переменных.

Время, необходимое для выполнения задач по техническому обслуживанию и укомплектованности смен поддержки, являются двумя основными переменными.

Кадровое обеспечение для нужд технического обслуживания является относительно фиксированным фактором, но зависит от того, какие виды деятельности выполняются персоналом центра обработки данных, а какие функции передаются на аутсорсинг.

Персонал вспомогательной смены определяется как персонал, отвечающий за мониторинг центра обработки данных и реагирование на любые инциденты или события.

Сменное штатное расписание службы технической поддержки может определяться различными способами.

Каждый метод укомплектования персоналом потенциально влияет на операции в зависимости от того, какие процессы охвачены технической поддержкой.



Тенденции сменного штатного расписания

Основная цель постоянного содержания квалифицированного персонала на объекте — свести к минимуму риск сбоев, вызванных аномальными событиями, путем предотвращения инцидента, его сдерживания или изоляции, а также предотвращения его распространения или воздействия на другие системы.

Во многих центрах обработки данных по-прежнему имеется команда квалифицированных электриков, инженеров-механиков и других технических специалистов, которые обеспечивают круглосуточную доступность без выходных.

Однако технологии удаленного мониторинга, сложная планировка зданий, необходимость сбалансировать затраты и другие причины могут побудить организации по-другому нанимать персонал.

Управление режимом технической поддержки без постоянного присутствия квалифицированного персонала на объекте может увеличить риски из-за задержки реагирования на аномальные инциденты.

В конечном итоге компания должна прийти к решению с приемлемым уровнем риска.

Другие модели поддержки с полным покрытием включают в себя:

  • Обучение сотрудников службы безопасности реагированию на сигналы тревоги и внедрению процедур для решения проблем;
  • Мониторинг центра обработки данных с помощью местной или региональной системы мониторинга зданий (BMS) и дежурных технических специалистов;
  • Наличие персонала на объекте в обычное рабочее время и дежурство в ночное время и в выходные дни;
  • Эксплуатация нескольких центров обработки данных как выделенного комплекса зданий, команда которого поддерживает несколько центров обработки данных без необходимости присутствия в каждом отдельном центре обработки данных в любой момент времени.

Эффективность этих и других методов должна оцениваться индивидуально.

Чтобы оценить модель предоставления поддержки, центр обработки данных должен определить потенциальные риски инцидентов в центре обработки данных и их потенциальное влияние на бизнес.

За последние 20 лет Uptime Institute собрал базу данных отчетов об аномальных происшествиях (AIR), используя информацию, полученную от членов сети Uptime Institute. Uptime Institute ежегодно анализирует данные и представляет результаты членам сети.

База данных AIRs содержит интересную информацию о проблемах с кадрами и эффективных моделях кадрового обеспечения центров обработки данных.



Инциденты происходят и в нерабочее время.

В 2013 году незначительное большинство происшествий (из 277 происшествий) произошло в рабочее время.

Однако 44% инцидентов произошли между полуночью и 8:00 утра, что подчеркивает потенциальную потребность в круглосуточной технической поддержке (см.

Рисунок 1).



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 1. Примерно половина аномальных происшествий, произошедших в 2013 году, произошла в период с 8:00 до полудня, другая половина — с полуночи до 8:00. Несчастные случаи могут произойти в любое время года.

Сосредоточение активности персонала в определенные периоды года над другими не будет продуктивным (например, запрет отпусков).

Возникновение происшествий довольно равномерно распределено в течение года.

На рисунке 2 показано распределение инцидентов по дням недели.

На графике видно, что на каждый день недели приходится практически равная доля, что говорит о том, что штатное расписание должно быть одинаковым для смен каждого дня недели.

Это важный вывод, поскольку некоторые центры обработки данных концентрируют свои силы поддержки с понедельника по пятницу, а выходные оставляют для удаленного мониторинга (см.

рис.

2).



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 2. Персонал центра обработки данных должен быть готов каждый день недели.



Инциденты по отраслям

Рисунок 3 дополнительно иллюстрирует инциденты по отраслям и не показывает существенных различий в тенденциях между отраслями.

Диаграмма показывает, что в сфере финансовых услуг зарегистрировано гораздо больше инцидентов, чем в других отраслях, но это, вероятно, отражает состав выборки.



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 3. Инциденты в центрах обработки данных происходят круглый год.

Причины сбоев и методы обнаружения

Знание того, когда происходят инциденты, мало что может сказать о том, какой персонал должен находиться на месте.

Понимание того, какие инциденты происходят чаще всего, поможет сформировать состав вашей смены, а также то, как чаще всего выявляются инциденты.

На рисунке 4 показано, что большинство инцидентов связаны с электрическими системами, за которыми следуют механические системы.

Напротив, критические ИТ-рабочие нагрузки вызывают относительно мало инцидентов.



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 4. Более половины аномальных происшествий, зарегистрированных в 2013 году, были связаны с электрической системой.

В результате имеет смысл, чтобы команды всех смен имели достаточный опыт для реагирования на наиболее распространенные инциденты в электросистемах.

Служба поддержки также должна реагировать на другие типы инцидентов.

Инженеры-электрики, прошедшие перекрестную подготовку по механическим и структурным системам, могут обеспечить достаточный охват, а дежурные работники могут справиться с относительно редкими ИТ-инцидентами.

База данных AIRs также проливает свет на то, как выявляются инциденты.

На рисунке 5 показано, что более половины всех инцидентов, обнаруженных в 2013 году, были зарегистрированы с помощью систем сигнализации, а более 40% инцидентов были обнаружены техническими специалистами на месте, что в общей сложности составляет около 95% инцидентов.

Самым большим изменением за последние годы, показанным на диаграмме, является медленное увеличение числа инцидентов, обнаруживаемых с помощью сигналов тревоги.



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 5. Тревоги теперь являются способом обнаружения большинства инцидентов; однако проблемы с доступностью чаще обнаруживают технические специалисты.

Однако сигналы тревоги не могут реагировать на инциденты или смягчать последствия.

Uptime Institute рассмотрел целый ряд методов, которые позволяют центрам обработки данных избегать и снижать последствия сбоев.

Эти методы требуют от персонала реагирования на инциденты, создания резервирования в критических системах и эффективных программ профилактического обслуживания, позволяющих предвидеть потенциальные сбои до того, как они произойдут. На рисунке 6 показано, как часто каждый из этих методов «спасает» дата-центры.



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 6. Резервирование оборудования в 2013 году способствовало большему количеству «спасений», чем в предыдущие годы.

Диаграмма также показывает, что резервирование оборудования и профилактическое обслуживание в последние годы стали более эффективными и позволяют центрам обработки данных экономить все больше и больше денег.

Этому есть несколько возможных объяснений, включая повышение надежности системы, более широкое использование профилактического обслуживания и сокращение бюджета, что приводит к сокращению персонала или его перемещению за пределы центра обработки данных.



Неисправности по основной причине

Данные показывают, что все проблемы с доступностью в 2013 году были вызваны авариями в электросистемах.

Большинство сбоев произошло из-за того, что процедуры технического обслуживания не выполнялись должным образом.

Этот вывод подчеркивает важность наличия надлежащих процедур и хорошо обученного персонала.



Несчастные случаи «на часы не смотрят»: статистическое обоснование режима работы круглосуточной техподдержки

Рисунок 7. Почти половина отключений, зарегистрированных в 2013 году, были результатом проблем с обслуживанием.

На рис.

7 дополнительно рассмотрены причины инцидентов в 2013 году.

Примерно половина инцидентов были описаны как «В эксплуатации», что определяется как неадекватное обслуживание, неправильная конфигурация оборудования, работа до отказа или отсутствие конкретной первопричины.

Случаи «профилактического обслуживания» на самом деле относятся к профилактическому обслуживанию, которое не было выполнено должным образом.

Персонал центров обработки данных стал причиной лишь 2% инцидентов, что свидетельствует о том, что взаимодействие персонала и оборудования не является основной причиной инцидентов и сбоев.



Заключение

Растущая сложность управления инфраструктурой центров обработки данных (DCIM), систем управления зданиями (BMS) и систем автоматизации зданий (BAS) затрудняет ответ на вопрос, можно ли сократить рабочую силу центров обработки данных.

Достижения в совершенствовании этих систем значительны.

Они могут улучшить производительность вашего центра обработки данных; однако данные показывают, что для предотвращения инцидентов часто требуется присутствие персонала на месте.

Вот почему постоянная укомплектованность квалифицированным персоналом, эквивалентным полной занятости (FTE), является директивой для центров обработки данных, сертифицированных по уровням Tier III и Tier IV. Основная цель — обеспечить быстрое реагирование для смягчения последствий любых инцидентов или событий.

Данные показывают, что возникновение инцидентов не имеет временных закономерностей.

Их появление достаточно хорошо распределено по всем 24 часам и всем 7 дням недели.

Основная цель – предотвратить риск.

Центры обработки данных продолжают развиваться благодаря удаленному управлению и увеличению резервирования оборудования.

Каждый центр обработки данных уникален и имеет свой собственный набор рисков.

Режим поддержки — это лишь один из факторов, но он весьма важен.

Решение о том, сколько сотрудников будет задействовано в каждой смене и какой квалификации, может оказать существенное влияние на предотвращение рисков и доступность центров обработки данных.

Делайте разумный выбор.

Другие статьи блога Cloud4Y: Какова реальная стоимость простоя ИТ-инфраструктуры для малого и среднего бизнеса? (внешняя ссылка) Рост использования облачных вычислений в автоматизации промышленных процессов (внешняя ссылка) → Что происходит с ценами на облачные вычисления в последние годы (Хабр) → Как создавать образцы для Единой биометрической системы и чем это может быть опасно (Хабр) Теги: #центр обработки данных #ИТ-инфраструктура #Администрирование серверов #Управление персоналом #Анализ и проектирование систем #отказы #уровень-iii #центр обработки данных #Uptime Institute #доступность данных

Вместе с данным постом часто просматривают: