Это небольшая временная статья, которая позже будет заменена полным анализом и исчерпывающей информацией о том, что произошло сегодня.
Сегодня около 30 минут посетители веб-сайтов Cloudflare могли видеть ошибку 502, вызванную резким увеличением загрузки ЦП в нашей сети.
Это произошло из-за неудачного развертывания программного обеспечения.
Мы откатили изменения, и служба теперь работает в обычном режиме, как и раньше, а все домены, использующие Cloudflare, вернулись к нормальному уровню трафика.
Уверяем вас, что нападения не было, и приносим глубокие извинения за произошедшее.
Наши разработчики уже проводят детальный анализ ошибок и пытаются понять, что нужно сделать, чтобы избежать подобных инцидентов в будущем.
Добавлено в 20:09 UTC: Сегодня в 13:42 UTC в нашей сети был обнаружен сбой, в результате которого посетители доменов Cloudflare увидели ошибку 502 («Плохой шлюз»).
Этот сбой был вызван развертыванием неправильно настроенного правила в брандмауэре веб-приложений Cloudflare (WAF) во время стандартного процесса развертывания новых управляемых правил Cloudflare WAF. Новые правила были разработаны для улучшения механизма блокировки встроенного JavaScript, используемого в хакерских атаках.
Эти правила были развернуты в режиме моделирования, который обычно обнаруживает и регистрирует ошибки, не блокируя пользовательский трафик, что позволяет нам измерять количество ложных срабатываний и гарантировать правильную работу новых правил при развертывании в реальном проекте.
К сожалению, одно из этих правил содержало регулярное выражение, из-за которого загрузка ЦП на наших компьютерах повсюду возрастала до 100%.
Именно из-за этого всплеска у пользователей нашего сервиса возникла ошибка 502 и трафик упал до 82%.
На графике ниже показан скачок нагрузки на процессор на одном из наших PoP:
Впервые мы столкнулись с проблемой полного исчерпания ресурсов процессора, что было для нас крайне неожиданно.
Мы постоянно развертываем программное обеспечение в нашей сети и уже разработали автоматизированные системы проведения тестов и процедуру поэтапного развертывания для предотвращения неприятных ситуаций.
К сожалению, глобальное развертывание правил WAF было выполнено за один шаг, что и стало причиной сегодняшнего сбоя.
В 14:02 UTC мы поняли, что произошло, и решили полностью отключить наборы правил WAF, что сразу нормализовало загрузку процессора и восстановило трафик.
Мы сделали это в 14:09 UTC. После этого мы проанализировали проблемный пул-реквест, откатили изменения соответствующих правил, протестировали свои действия, чтобы быть на 100% уверенными в правильности обнаружения ошибки, а затем в 14:52 восстановили наборы правил WAF. Мы понимаем, какой вред наносят такие инциденты нашим пользователям.
В данном случае наш механизм тестирования не справился с задачей, и мы уже работаем над его улучшением и оптимизацией процесса развертывания, чтобы избежать подобных ошибок в будущем.
Теги: #Разработка сайтов #cdn #SaaS / S+S #cloudflare #accident #accident
-
Статья-Маркетинг – Работает Ли Он Еще?
19 Oct, 24 -
5 Советов По Проведению Хорошего Обзора Кода
19 Oct, 24 -
Моделирование Туннелей — Версия 1.0
19 Oct, 24 -
Поведенческие Технологии В Сети Рлэ.
19 Oct, 24 -
Рбк Выпускает «Хабракиллер»
19 Oct, 24