Отчет Погорельцев

Вступительно: мы арендовали сервер на хостинге.

ua, на котором работал добрый десяток сайтов наших клиентов (суммарный трафик исчисляется десятками тысяч), в т.ч.

магазины с приличным товарооборотом, размещен баг-трекер, Jira, DNS. Говорят, что все люди делятся на 2 типа: 1 - делают бэкапы, 2 - уже делают. Мы были где-то посередине.

За историю нашей работы у нас уже случалось выпадать жёсткие диски, гореть материнские платы, сбоить файловые системы.

Поэтому на жестком диске того же сервера настраивалась система ежедневного резервного копирования, а изредка копия делалась на другой сервер в том же дата-центре.

При такой системе потеря боевого жесткого диска — неприятность, но довольно редкое явление, и чтобы резервные копии на двух серверах исчезли одновременно, должно произойти нечто невероятное (как мне тогда казалось).

Во всех статьях в рекомендациях по резервному копированию написано, что резервные копии должны физически храниться в разных местах.

Действия властей «в случае пожара» или других стихийных бедствий звучат, согласитесь, смешно…



Суббота.

Вечер.

В 21.30 я получил первое сообщение от системы мониторинга доступности серверов, попытался выяснить, что произошло — оказалось, что весь дата-центр не работает. Ни сайт хостера, ни мой сервер не пинговались.

Я решил, что это проблема с каналом (что уже было не раз) и спокойно поехал в Россию на «выходные» (ну что могло случиться, пожар или что-то в этом роде?).



Воскресенье.

Утро.

Придя на первый пересадочный пункт после полуночи, я заметил, что система мониторинга не остановилась, и я просто отключил СМС-уведомления.

Проснувшись утром в деревне неподалеку от границы, я был неприятно удивлен количеством СМС о том, что сервер по-прежнему недоступен.

Я позвонил администратору, несмотря на раннее утро, и попросил узнать, что там происходит. Через 10 минут я получил сообщение, содержащее одно слово из шести букв, «обозначающее полный крах всех надежд».

Я тут же перезвонил и после разговора стало ясно, что это слово очень точно характеризует произошедшее.

По слухам(!), в дата-центре случился пожар, автоматическая система пожаротушения не сработала, а то, что уцелело при пожаре, пожарные щедро полили.

Официальной информации нет, поддержка не отвечает.

Воскресенье.

День.

Дальше все как на войне 1. Заказали новый сервер с "мгновенной" активацией, не важно какой, важно быстро 2. Уведомили ключевых клиентов о произошедшем, нашем плане действий и возможных последствиях.

3. В офис был вызван «специалист».

называется «администратор и ключевые разработчики 4. Мы начали пытаться связаться с хостером, чтобы узнать из официальных источников, что произошло и в каком состоянии наш сервер.

5. Подняли DNS на новом сервере и перенесли на него все подконтрольные домены 6. Подняли записи почты нашего домена, чтобы не потерять переписку 7. В ответ на все запросы стали возвращать страницу с ошибкой 5023 и пояснительным текстом 8. Сели писать граббер кеша Яндекса для сохранения проиндексированного контента в случае потери всей информации.

И предотвратить недоступность сайта для поисковых систем в период восстановительных работ. Благодаря слаженной работе офиса мне не пришлось срочно возвращаться, хотя времени на телефоне пришлось провести достаточно много.



Понедельник.

К середине понедельника наши ключевые сайты были разграблены, и нам наконец удалось связаться с хостером, который сообщил нам, что наша стойка (С) не особо пострадала от пожара и есть шанс, что данные уцелели.

Когда мне его вручили, я впервые выдохнула.



Вторник.

Во вторник я уже был в офисе, и с самого утра мы начали строить «фанерную версию» основного сайта.

К обеду посетители уже видели контент в достойном оформлении и могли перейти по ссылкам; когда они попытались что-то заказать, им пришло сообщение о происшествии и просьба позвонить напрямую в магазин.

Параллельно с этим продолжались попытки получить доступ к информации, которая лежала в дата-центре.

Проблема осложнялась расстоянием (мы в Минске, ДЦ в Одессе), а также тем, что биллинг хостинг-провайдера был уничтожен, и они, строго говоря, не знали, где чей сервер (несмотря на то, что 2.5 с момента происшествия уже прошли сутки).

Нас спасло то, что в понедельник нам удалось без промедления договориться о том, что нам отдадут наш жесткий диск в обмен на залог и выписку.

Времени терять было нельзя и начались поиски человека, который мог бы решить вопросы на месте.

Как оказалось, у нас было несколько вариантов, но на все варианты упорно не отвечали.

Владелец крупнейшего магазина уже заказал билеты для своего помощника на рейс в Одессу, я просто спрашивал всех, кого видел: «Есть ли у вас в Одессе надежные Linux-устройстваЭ» Странным образом нашелся человек (назовем его Админ), который взялся нам помочь.

Первый визит в ДК закончился неудачно; ответили, что жёсткие диски никому не отдадут. После чего нам пришлось еще раз позвонить друг другу и напомнить об обещаниях.

Со второго прихода (поздним вечером) забрали жесткий диск.

В том виде, в котором его получили, включить его было невозможно, поэтому сразу поехал в мастерскую на срочный ремонт.

Среда.

Через 15 часов и 250 долларов он вернулся к Администратору, который, восстановив файловую систему, настроил загрузку данных на наш сервер.

В этот момент все выдохнули.

Ночью флагманский сайт уже работал и вечером, наконец, на их сайте появилось первое официальное сообщение от хостинга.

ua (о том, что произошел пожар, и информация будет опубликована здесь).

К концу четверга большая часть объектов была восстановлена, на остальных мы постепенно завершаем восстановительные работы.



Чему мы научились?

1. Открытость очень помогает. Тот факт, что мы смогли сообщить о чрезвычайной ситуации и наши действия относительно быстро сэкономили немало нервов и нам, и нашим клиентам.

Если бы мы молчали, как Hosting.ua, мы бы потеряли почти всех наших клиентов.

2. Очень важно хранить резервные копии в физически разных местах.

Мы не совершим такой ошибки во второй раз; резервные копии будут на разных континентах (на случай войны).

Страховка стоит около 40 долларов в месяц, убытки от 3-дневного простоя стоят более 2 лет «страховки».

3. Вам необходимо иметь план действий на случай чрезвычайной ситуации.

Чтобы все заранее знали, кто чем занимается.

В нашем случае мне повезло, что я был на связи и имел при себе ноутбук со всеми паролями для управления доменами.

Если бы нам не «повезло» в этой части, последствия были бы куда более драматичными.

4. Грабберы хорошие =) Надеюсь, этот опыт поможет кому-то извлечь уроки из наших ошибок и перейти в категорию резервное копирование без серьезных потрясений Теги: #Хостинг #резервные копии #пожар #hosting.ua

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.