Неудачное Развертывание Программного Обеспечения Привело К Сбою Сервиса Cloudflare

Это небольшая временная статья, которая позже будет заменена полным анализом и исчерпывающей информацией о том, что произошло сегодня.

Сегодня около 30 минут посетители веб-сайтов Cloudflare могли видеть ошибку 502, вызванную резким увеличением загрузки ЦП в нашей сети.

Это произошло из-за неудачного развертывания программного обеспечения.

Мы откатили изменения, и служба теперь работает в обычном режиме, как и раньше, а все домены, использующие Cloudflare, вернулись к нормальному уровню трафика.

Уверяем вас, что нападения не было, и приносим глубокие извинения за произошедшее.

Наши разработчики уже проводят детальный анализ ошибок и пытаются понять, что нужно сделать, чтобы избежать подобных инцидентов в будущем.

Добавлено в 20:09 UTC: Сегодня в 13:42 UTC в нашей сети был обнаружен сбой, в результате которого посетители доменов Cloudflare увидели ошибку 502 («Плохой шлюз»).

Этот сбой был вызван развертыванием неправильно настроенного правила в брандмауэре веб-приложений Cloudflare (WAF) во время стандартного процесса развертывания новых управляемых правил Cloudflare WAF. Новые правила были разработаны для улучшения механизма блокировки встроенного JavaScript, используемого в хакерских атаках.

Эти правила были развернуты в режиме моделирования, который обычно обнаруживает и регистрирует ошибки, не блокируя пользовательский трафик, что позволяет нам измерять количество ложных срабатываний и гарантировать правильную работу новых правил при развертывании в реальном проекте.

К сожалению, одно из этих правил содержало регулярное выражение, из-за которого загрузка ЦП на наших компьютерах повсюду возрастала до 100%.

Именно из-за этого всплеска у пользователей нашего сервиса возникла ошибка 502 и трафик упал до 82%.

На графике ниже показан скачок нагрузки на процессор на одном из наших PoP:

Неудачное развертывание программного обеспечения привело к сбою сервиса Cloudflare

Впервые мы столкнулись с проблемой полного исчерпания ресурсов процессора, что было для нас крайне неожиданно.

Мы постоянно развертываем программное обеспечение в нашей сети и уже разработали автоматизированные системы проведения тестов и процедуру поэтапного развертывания для предотвращения неприятных ситуаций.

К сожалению, глобальное развертывание правил WAF было выполнено за один шаг, что и стало причиной сегодняшнего сбоя.

В 14:02 UTC мы поняли, что произошло, и решили полностью отключить наборы правил WAF, что сразу нормализовало загрузку процессора и восстановило трафик.

Мы сделали это в 14:09 UTC. После этого мы проанализировали проблемный пул-реквест, откатили изменения соответствующих правил, протестировали свои действия, чтобы быть на 100% уверенными в правильности обнаружения ошибки, а затем в 14:52 восстановили наборы правил WAF. Мы понимаем, какой вред наносят такие инциденты нашим пользователям.

В данном случае наш механизм тестирования не справился с задачей, и мы уже работаем над его улучшением и оптимизацией процесса развертывания, чтобы избежать подобных ошибок в будущем.

Теги: #Разработка сайтов #cdn #SaaS / S+S #cloudflare #accident #accident

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.