Планирование Аварийного Восстановления. Часть Третья – Заключительная



Мы сопоставляем потребности бизнеса с его возможностями

Планирование аварийного восстановления.
</p><p>
 Часть третья – заключительная

В предыдущих статьях ( 1 , 2 ), посвященный планированию аварийного восстановления, описал процедуры сбора и обработки информации об ИТ-инфраструктуре организации, позволяющие получить точную информацию о:

  • ИТ-услуги, критически важные для бизнеса компании,
  • Текущее время восстановления их работы в случае сбоя,
  • Минимально достижимые сроки аварийного восстановления,
  • Необходимые ресурсы для их достижения.

И все было бы хорошо, если бы не ограниченные финансовые возможности организации, не позволяющие приобрести все необходимые резервы для оперативного восстановления.

По этой причине конечной задачей планирования аварийного восстановления является поиск баланса между потребностями и финансовыми возможностями бизнеса и закрепление его в виде соглашения об уровне обслуживания (SLA) в части разрешения возникающих инцидентов.

Данный этап полностью состоит из согласования с руководством компании следующих аспектов взаимодействия:

1. Время поддержки бизнеса со стороны внутренней ИТ-службы



Планирование аварийного восстановления.
</p><p>
 Часть третья – заключительная

Готовность технических специалистов начать аварийное восстановление, как только они получат информацию о сбое, является основным фактором, определяющим время поддержки.

Восьмичасовой рабочий день, отпуска, болезни и выходные дни естественным образом ограничивают эту возможность.

Если у вас нет специалистов с необходимыми компетенциями для проведения восстановительных работ или нет достаточного дублирования с инженерами как по времени, так и в случае отсутствия одного из них, то бизнесу не стоит рассчитывать на круглосуточную поддержку.

Если текущий охват специалистов не позволяет гарантировать оперативное реагирование даже в режиме 9*5, то возможны следующие варианты:

  • Измеряйте время восстановления не с момента возникновения происшествия, а с начала работы специалиста по ДТП,
  • Сделать предварительную подготовку к возможности восстановления обслуживания пользователей менее компетентными специалистами,
  • Обучить специалиста резерва необходимым навыкам,
  • Передавайте точку отказа или полностью заказной сервис на обслуживание внешнему подрядчику, соответствующему требуемым параметрам SLA.
Однако с внешними подрядчиками все не так просто:

2. SLA с внешними подрядчиками

Внешний успех работы с внешним подрядчиком может маскировать его неспособность разрешить инциденты в сроки, требуемые бизнесом.

Удобство и оперативность работы могут обернуться головной болью при первых же проблемах из-за непонимания внешнего поставщика требуемого вам уровня сервиса.

Если существующее соглашение об уровне обслуживания внешнего поставщика неудовлетворительно для вашего бизнеса (или просто не существует), то доступны следующие варианты:

  • Согласование изменений условий с действующим подрядчиком.

    Оставьте за собой право на несколько выборочных проверок соблюдения SLA,

  • Смените подрядчика на того, стандартный SLA которого соответствует вашим требованиям.

    И еще раз проверим его реализацию,

  • Подключите резервного оператора службы, чтобы быстро переключиться на него в случае проблем с основным,
  • Примите и оставьте все без изменений, если подрядчик — монополист. Сообщите о данном положении дел руководству компании и закрепите его за ним,
  • Организуйте данную услугу самостоятельно.

После того как вы определили людей и/или компании, которые будут выполнять работы по исправлению ситуации, вы можете назначить время поддержки для пользовательских служб, которое может быть встроено в соглашение об уровне обслуживания между ИТ-отделом и бизнесом.

Остается только согласовать сроки их восстановления, а для этого необходимо обсудить:

3. Получение резервов, необходимых для аварийного восстановления.



Планирование аварийного восстановления.
</p><p>
 Часть третья – заключительная

Наличие необходимых резервов оборудования напрямую влияет на возможность быстрого восстановления работоспособности.

Если в вашей компании один физический сервер, то в случае его выхода из строя восстанавливать работу будет просто не на чем (подробнее об определении необходимых резервов см.

предыдущая статья ).

Если на данный момент ваша компания не располагает всеми запасами оборудования, необходимыми для восстановительных работ, то возможны следующие варианты:

  • Приобретайте оборудование заранее, если стоимость простоя явно превышает его цену.

    Например, резервный коммутатор стоит существенно меньше, чем простой на период его покупки,

  • Подписать договор на обслуживание по замене вышедшего из строя оборудования, если для бизнеса приемлемо условие «замена на следующий рабочий день»,
  • Договориться об оперативном выделении средств на приобретение необходимого элемента в случае выхода из строя, если стоимость простоя сопоставима с резервным элементом,
  • Договариваться о снижении качества работы системы в случае сбоя и/или отключения второстепенных сервисов в целях запуска критически важных для бизнеса систем,
  • Договориться об оперативном выделении средств на приобретение менее мощного оборудования для временного запуска вышедшего из строя сервиса с худшими качественными параметрами.

В принципе, на этом этапе уже можно указать сроки, в течение которых можно восстановить те или иные пользовательские сервисы в случае каких-либо сбоев.

Если сроки, даже при наличии всех необходимых резервов, не устраивают руководство, то это повод обсудить:

4. Предварительная подготовка для ускорения аварийного восстановления

Это может быть как дополнительная система мониторинга, система резервного копирования, так и дополнительный сервер или сетевое оборудование, настроенное и работающее в режиме горячей замены.

Именно они могут вам понадобиться, чтобы немного быстрее локализовать и восстановить работу пользовательского сервиса.

После того, как вы согласовали с руководством все необходимые инвестиции в людей, договоры на обслуживание, оборудование и программное обеспечение, вы можете помимо времени поддержки еще и согласовать сроки восстановления пользовательских сервисов.

Но для того, чтобы эти сроки были соблюдены, нужна еще одна маленькая деталь:

5. Объем выполняемых регуляторных задач



Планирование аварийного восстановления.
</p><p>
 Часть третья – заключительная

Чтобы обеспечить аварийное восстановление, вы должны быть уверены, что в случае аварии у вас будут все необходимые ресурсы для восстановления.

Для этого необходимо постоянно следить за их наличием и корректностью.

Имея информацию о заранее согласованных запасах и ресурсах, можно сформировать точный перечень необходимых регламентирующих мероприятий, регулярное выполнение которых может потребовать привлечения дополнительных технических специалистов.

Это необходимая цена за надежность, но, к сожалению, иногда даже она бесполезна:

6. Ситуации, выходящие за рамки SLA.

Бывают ситуации, в которых трудно спрогнозировать сроки восстановления и которые выходят за рамки планирования.

Это не только форс-мажорные ситуации, но и события с одновременным выходом из строя двух и более однотипных элементов, возникновение которых допускается теорией вероятности.

Готовить ИТ-инфраструктуру и ИТ-специалистов для быстрого устранения любых катастроф часто не имеет экономического смысла.

В некоторых случаях гораздо дешевле и эффективнее подготовить сам бизнес к действиям в случае возникновения чрезвычайной ситуации.

Например, не составило труда подготовить формы накладных для ручного оформления товаров в случае полного отказа компьютерных систем или организовать строгий учет первичной документации для восстановления хозяйственной деятельности с момента последнего резервного копирования базы данных форс-мажорных обстоятельств.

.

Описаны возможные технические меры по снижению негативного влияния подобных ситуаций на бизнес.

ранее .

На этом этап согласования можно считать завершенным – остались лишь мелкие формальности:

Фиксируем согласованные параметры и действуем



Планирование аварийного восстановления.
</p><p>
 Часть третья – заключительная

Результаты ваших переговоров с руководством следует зафиксировать на бумаге, отразив в ней:
  • Время на поддержку пользовательских сервисов, согласованное с бизнесом,
  • Гарантированные сроки восстановления их работы в случае сбоев,
  • Деньги (включая сроки их выделения) и мероприятия, необходимые для достижения целей,
  • Ситуации, выходящие за рамки планирования, и перечень мер по снижению ущерба в случае их возникновения.

Закрепленные в документе соглашения позволят перейти от ситуации, когда «ИТ-инфраструктура делает вид, что работает, а бизнес делает вид, что инвестирует в нее», к ситуации, когда бизнес понимает, на какой уровень сервиса он может рассчитывать в зависимости от его инвестиции в ИТ.

На этом этапе планирование аварийного восстановления можно считать успешно завершенным.

Правда, иногда, после оценки всех необходимых изменений и их стоимости, становится понятно, что дешевле радикально изменить существующую ИТ-инфраструктуру.

Но это совсем другая история.

Удачи! Иван Кормачев Компания «ИТ Департамент» www.depit.ru Теги: #инфраструктура #ИТ-инфраструктура #Системное администрирование #DRP #bcp #аварийное восстановление

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.