Неудачное Развертывание Программного Обеспечения Привело К Сбою Сервиса Cloudflare

Это небольшая временная статья, которая позже будет заменена полным анализом и исчерпывающей информацией о том, что произошло сегодня.

Сегодня около 30 минут посетители веб-сайтов Cloudflare могли видеть ошибку 502, вызванную резким увеличением загрузки ЦП в нашей сети.

Это произошло из-за неудачного развертывания программного обеспечения.

Мы откатили изменения, и служба теперь работает в обычном режиме, как и раньше, а все домены, использующие Cloudflare, вернулись к нормальному уровню трафика.

Уверяем вас, что нападения не было, и приносим глубокие извинения за произошедшее.

Наши разработчики уже проводят детальный анализ ошибок и пытаются понять, что нужно сделать, чтобы избежать подобных инцидентов в будущем.

Добавлено в 20:09 UTC: Сегодня в 13:42 UTC в нашей сети был обнаружен сбой, в результате которого посетители доменов Cloudflare увидели ошибку 502 («Плохой шлюз»).

Этот сбой был вызван развертыванием неправильно настроенного правила в брандмауэре веб-приложений Cloudflare (WAF) во время стандартного процесса развертывания новых управляемых правил Cloudflare WAF. Новые правила были разработаны для улучшения механизма блокировки встроенного JavaScript, используемого в хакерских атаках.

Эти правила были развернуты в режиме моделирования, который обычно обнаруживает и регистрирует ошибки, не блокируя пользовательский трафик, что позволяет нам измерять количество ложных срабатываний и гарантировать правильную работу новых правил при развертывании в реальном проекте.

К сожалению, одно из этих правил содержало регулярное выражение, из-за которого загрузка ЦП на наших компьютерах повсюду возрастала до 100%.

Именно из-за этого всплеска у пользователей нашего сервиса возникла ошибка 502 и трафик упал до 82%.

На графике ниже показан скачок нагрузки на процессор на одном из наших PoP:

Неудачное развертывание программного обеспечения привело к сбою сервиса Cloudflare

Впервые мы столкнулись с проблемой полного исчерпания ресурсов процессора, что было для нас крайне неожиданно.

Мы постоянно развертываем программное обеспечение в нашей сети и уже разработали автоматизированные системы проведения тестов и процедуру поэтапного развертывания для предотвращения неприятных ситуаций.

К сожалению, глобальное развертывание правил WAF было выполнено за один шаг, что и стало причиной сегодняшнего сбоя.

В 14:02 UTC мы поняли, что произошло, и решили полностью отключить наборы правил WAF, что сразу нормализовало загрузку процессора и восстановило трафик.

Мы сделали это в 14:09 UTC. После этого мы проанализировали проблемный пул-реквест, откатили изменения соответствующих правил, протестировали свои действия, чтобы быть на 100% уверенными в правильности обнаружения ошибки, а затем в 14:52 восстановили наборы правил WAF. Мы понимаем, какой вред наносят такие инциденты нашим пользователям.

В данном случае наш механизм тестирования не справился с задачей, и мы уже работаем над его улучшением и оптимизацией процесса развертывания, чтобы избежать подобных ошибок в будущем.

Теги: #Разработка сайтов #cdn #SaaS / S+S #cloudflare #accident #accident

Неудачное Развертывание Программного Обеспечения Привело К Сбою Сервиса Cloudflare

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Неудачное Развертывание Программного Обеспечения Привело К Сбою Сервиса Cloudflare

Вопросы По Cisco Ccna, Ccnp, Ccent И Comptia Network+ И Security+: Vlan, Syn-Атаки И Многое Другое!

Домашний Бизнес — Решение Для Экономии Средств

Статья-Маркетинг – Работает Ли Он Еще?

Мнение: «Прийти В Назначенное Время – Значит Опоздать»

Сервис Отложенного Чтения Pocket Будет Предлагать Читателям Спонсорские Статьи

5 Советов По Проведению Хорошего Обзора Кода

Визуализация Данных По Акциям Дивидендных Аристократов Сша В Формате Веб-Приложения

Моделирование Туннелей — Версия 1.0

Поведенческие Технологии В Сети Рлэ.

Рбк Выпускает «Хабракиллер»

Автор Статьи

Роман Иванов

Интересно

Bobocomm – Создатели Рекламы...

Growbydata — Программное Обеспечение Для Конкурентной Разведки...

Neolive - Программное Обеспечение Для Цифровых Вывесок...

Casey Powell Lacrosse 18 Xbox One X S Активация...

Увеличение Трафика На Выставке За Пределами Выставочного Зала...

Партнерам Нужна Надежная Маркетинговая Стратегия, Чтобы Добиться Успеха В...

Федуленков...

Dima Manisha