Вступительно: мы арендовали сервер на хостинге.
ua, на котором работал добрый десяток сайтов наших клиентов (суммарный трафик исчисляется десятками тысяч), в т.ч.
магазины с приличным товарооборотом, размещен баг-трекер, Jira, DNS. Говорят, что все люди делятся на 2 типа: 1 - делают бэкапы, 2 - уже делают. Мы были где-то посередине.
За историю нашей работы у нас уже случалось выпадать жёсткие диски, гореть материнские платы, сбоить файловые системы.
Поэтому на жестком диске того же сервера настраивалась система ежедневного резервного копирования, а изредка копия делалась на другой сервер в том же дата-центре.
При такой системе потеря боевого жесткого диска — неприятность, но довольно редкое явление, и чтобы резервные копии на двух серверах исчезли одновременно, должно произойти нечто невероятное (как мне тогда казалось).
Во всех статьях в рекомендациях по резервному копированию написано, что резервные копии должны физически храниться в разных местах.
Действия властей «в случае пожара» или других стихийных бедствий звучат, согласитесь, смешно…
Суббота.
Вечер.
В 21.30 я получил первое сообщение от системы мониторинга доступности серверов, попытался выяснить, что произошло — оказалось, что весь дата-центр не работает. Ни сайт хостера, ни мой сервер не пинговались.
Я решил, что это проблема с каналом (что уже было не раз) и спокойно поехал в Россию на «выходные» (ну что могло случиться, пожар или что-то в этом роде?).
Воскресенье.
Утро.
Придя на первый пересадочный пункт после полуночи, я заметил, что система мониторинга не остановилась, и я просто отключил СМС-уведомления.
Проснувшись утром в деревне неподалеку от границы, я был неприятно удивлен количеством СМС о том, что сервер по-прежнему недоступен.
Я позвонил администратору, несмотря на раннее утро, и попросил узнать, что там происходит. Через 10 минут я получил сообщение, содержащее одно слово из шести букв, «обозначающее полный крах всех надежд».
Я тут же перезвонил и после разговора стало ясно, что это слово очень точно характеризует произошедшее.
По слухам(!), в дата-центре случился пожар, автоматическая система пожаротушения не сработала, а то, что уцелело при пожаре, пожарные щедро полили.
Официальной информации нет, поддержка не отвечает.
Воскресенье.
День.
Дальше все как на войне 1. Заказали новый сервер с "мгновенной" активацией, не важно какой, важно быстро 2. Уведомили ключевых клиентов о произошедшем, нашем плане действий и возможных последствиях.
3. В офис был вызван «специалист».
называется «администратор и ключевые разработчики 4. Мы начали пытаться связаться с хостером, чтобы узнать из официальных источников, что произошло и в каком состоянии наш сервер.
5. Подняли DNS на новом сервере и перенесли на него все подконтрольные домены 6. Подняли записи почты нашего домена, чтобы не потерять переписку 7. В ответ на все запросы стали возвращать страницу с ошибкой 5023 и пояснительным текстом 8. Сели писать граббер кеша Яндекса для сохранения проиндексированного контента в случае потери всей информации.
И предотвратить недоступность сайта для поисковых систем в период восстановительных работ. Благодаря слаженной работе офиса мне не пришлось срочно возвращаться, хотя времени на телефоне пришлось провести достаточно много.
Понедельник.
К середине понедельника наши ключевые сайты были разграблены, и нам наконец удалось связаться с хостером, который сообщил нам, что наша стойка (С) не особо пострадала от пожара и есть шанс, что данные уцелели.
Когда мне его вручили, я впервые выдохнула.
Вторник.
Во вторник я уже был в офисе, и с самого утра мы начали строить «фанерную версию» основного сайта.
К обеду посетители уже видели контент в достойном оформлении и могли перейти по ссылкам; когда они попытались что-то заказать, им пришло сообщение о происшествии и просьба позвонить напрямую в магазин.
Параллельно с этим продолжались попытки получить доступ к информации, которая лежала в дата-центре.
Проблема осложнялась расстоянием (мы в Минске, ДЦ в Одессе), а также тем, что биллинг хостинг-провайдера был уничтожен, и они, строго говоря, не знали, где чей сервер (несмотря на то, что 2.5 с момента происшествия уже прошли сутки).
Нас спасло то, что в понедельник нам удалось без промедления договориться о том, что нам отдадут наш жесткий диск в обмен на залог и выписку.
Времени терять было нельзя и начались поиски человека, который мог бы решить вопросы на месте.
Как оказалось, у нас было несколько вариантов, но на все варианты упорно не отвечали.
Владелец крупнейшего магазина уже заказал билеты для своего помощника на рейс в Одессу, я просто спрашивал всех, кого видел: «Есть ли у вас в Одессе надежные Linux-устройстваЭ» Странным образом нашелся человек (назовем его Админ), который взялся нам помочь.
Первый визит в ДК закончился неудачно; ответили, что жёсткие диски никому не отдадут. После чего нам пришлось еще раз позвонить друг другу и напомнить об обещаниях.
Со второго прихода (поздним вечером) забрали жесткий диск.
В том виде, в котором его получили, включить его было невозможно, поэтому сразу поехал в мастерскую на срочный ремонт.
Среда.
Через 15 часов и 250 долларов он вернулся к Администратору, который, восстановив файловую систему, настроил загрузку данных на наш сервер.
В этот момент все выдохнули.
Ночью флагманский сайт уже работал и вечером, наконец, на их сайте появилось первое официальное сообщение от хостинга.
ua (о том, что произошел пожар, и информация будет опубликована здесь).
К концу четверга большая часть объектов была восстановлена, на остальных мы постепенно завершаем восстановительные работы.
Чему мы научились?
1. Открытость очень помогает. Тот факт, что мы смогли сообщить о чрезвычайной ситуации и наши действия относительно быстро сэкономили немало нервов и нам, и нашим клиентам.Если бы мы молчали, как Hosting.ua, мы бы потеряли почти всех наших клиентов.
2. Очень важно хранить резервные копии в физически разных местах.
Мы не совершим такой ошибки во второй раз; резервные копии будут на разных континентах (на случай войны).
Страховка стоит около 40 долларов в месяц, убытки от 3-дневного простоя стоят более 2 лет «страховки».
3. Вам необходимо иметь план действий на случай чрезвычайной ситуации.
Чтобы все заранее знали, кто чем занимается.
В нашем случае мне повезло, что я был на связи и имел при себе ноутбук со всеми паролями для управления доменами.
Если бы нам не «повезло» в этой части, последствия были бы куда более драматичными.
4. Грабберы хорошие =) Надеюсь, этот опыт поможет кому-то извлечь уроки из наших ошибок и перейти в категорию резервное копирование без серьезных потрясений Теги: #Хостинг #резервные копии #пожар #hosting.ua
-
Повысьте Эффективность Вашего Ит-Хранилища
19 Oct, 24 -
Больше, Чем Форд
19 Oct, 24 -
Что Стартап Может Сделать За Месяц?
19 Oct, 24 -
Rejector.ru Новости С Полей
19 Oct, 24 -
Создание Трекера Эмоционального Стресса
19 Oct, 24