Что Стало Причиной Сбоя 30 Августа, Во Время Которого Глобальный Трафик Упал На 3,5%

Глобальное отключение интернета произошло по вине американского провайдера CenturyLink. Из-за неправильной настройки брандмауэра у пользователей по всему миру возникали проблемы с доступом к сервисам Google, Microsoft, облачным сервисам Amazon, сервису микроблогов Twitter, Discord, сервисам Electronic Arts, Blizzard, Steam, сайту Reddit и многим другим.



Что стало причиной сбоя 30 августа, во время которого глобальный трафик упал на 3,5%

Причиной сбоя стало то, что CenturyLink, будучи провайдером Level3, неправильно сформулировал правило BGP Flowspec в протоколе безопасности.

BGP Flowspec используется для перенаправления трафика, поэтому эта ошибка привела к серьезным проблемам с маршрутизацией внутри сети провайдера, что также повлияло на стабильность глобальной сети Интернет. Конечно, сильнее всего пострадали пользователи в США, но влияние проблем ощущалось во всем мире.

Важно отметить, что CenturyLink является третьей по величине телекоммуникационной компанией Америки после AT&T и Verizon. BGP Flowspec от IETF имеет код спецификации.

RFC 5575 и описывается как многопротокольное расширение BGP MP-BGP, которое содержит информацию о доступности сетевого уровня.

Информация о доступности сетевого уровня (NLRI) .

BGP FlowSpec — это альтернативный метод удаления трафика DDoS-атаки с маршрута, который считается более тонким способом уклонения от атаки, чем RTBH (фильтрация черных дыр с удаленным запуском) , когда весь трафик от адреса атаки или трафик до адреса назначения блокируется.

В целом RTBH является «оружием судного дня» и является последним средством остановки атаки, поскольку его использование зачастую позволяет злоумышленнику добиться желаемого, то есть изолировать один из адресов.

BGP FlowSpec является более тонким и, по сути, представляет собой фильтр брандмауэра, который вводится в BGP для фильтрации определенных портов и протоколов и определения, какой трафик по какому маршруту пропускать.

Таким образом, «белый» трафик проходит по адресу назначения, а трафик, идентифицированный как DDoS, отбрасывается с маршрута.

Трафик анализируется с использованием как минимум 12 параметров NLRI:

  1. Префикс назначения.

    Указывает префикс назначения для сопоставления.

  2. Исходный префикс.

    Указывает префикс источника.

  3. IP-протокол.

    Содержит набор пар {оператор, значение}, которые используются для сопоставления байта значения протокола IP в IP-пакетах.

  4. Порт. Определяет, будут ли пакеты обрабатываться TCP, UDP или обоими.

  5. Порт назначения.

    Определяет порт назначения, на который будет влиять FlowSpec.

  6. Исходный порт. Определяет исходный порт, на который будет влиять FlowSpec.
  7. Тип ICMP.
  8. ICMP-код.
  9. TCP-флаги.

  10. Длина упаковки.

    Соответствует общей длине IP-пакета (исключая уровень 2, но включая IP-заголовок).

  11. ДСКП.

    Соответствие параметру флага класса обслуживания.

  12. Кодирование фрагмента
Полных сообщений о сбое от самой CenturyLink нет, там упоминается лишь их дата-центр недалеко от Онтарио.

Однако сбой маршрутизации был настолько серьёзным, что его заметили не только рядовые пользователи, но и инженеры CloudFlare, которые также пользуются услугами CenturyLink как крупного провайдера.

В соответствии с Отчет CloudFlare , все началось с всплеска 522 ошибок в 10:03 по Гринвичу 30 августа.



Что стало причиной сбоя 30 августа, во время которого глобальный трафик упал на 3,5%

Таким образом, система автоматической перемаршрутизации в случае сбоев сумела снизить количество ошибок и снизить их до 25% от пикового значения, однако проблемы с подключением к сети и доступностью ресурсов все равно сохранялись и носили глобальный характер.

Все это было сделано в окне между 10:03 начала отключения и 10:11 UTC. За эти восемь минут автоматика и инженеры отключили свою инфраструктуру от CenturyLink в 48 (!) городах Северной Америки и перевели трафик на резервные каналы других провайдеров.

Очевидно, что это сделал не только CloudFlare. Однако это не решило проблему полностью.

Чтобы проиллюстрировать влияние проблемного провайдера на телекоммуникационный рынок США и Канады, инженеры компании предоставили официальную карту доступности сервисов CenturyLink:

Что стало причиной сбоя 30 августа, во время которого глобальный трафик упал на 3,5%

В США провайдером пользуются 49 миллионов человек, а это означает, что для некоторых клиентов, согласно отчету CloudFlare, и даже для целых центров обработки данных CenturyLink является единственным доступным провайдером.

В результате из-за практически полного краха CenturyLink специалисты CloudFlare зафиксировали сокращение мирового интернет-трафика на 3,5%.

Вот как это выглядело на графике для шести основных провайдеров, с которыми работает компания.

CenturyLink на нем красный.



Что стало причиной сбоя 30 августа, во время которого глобальный трафик упал на 3,5%

О том, что сбой был глобальным, а не просто «проблемой в дата-центре недалеко от Онтарио», как заявил сам провайдер, свидетельствует и размер обновлений правил Flowspec. Обычно размер обновлений конфигурации BGP Flowspec составляет около 2 мегабайт, но CloudFlare записал обновления конфигурации BGP размером до 26 МБ (!).



Что стало причиной сбоя 30 августа, во время которого глобальный трафик упал на 3,5%

Эти обновления, которые распространяются каждые 15 минут, передают сетевым узлам информацию об изменениях в производительности маршрута.

Это позволяет гибко реагировать на некоторые локальные проблемы.

Обновления в 10-15 раз больше обычного говорят о том, что почти вся сеть провайдера вышла из строя или возникли крайне серьезные проблемы с подключением.

CloudFlare считает, что причиной сбоя стало неверное глобальное правило BGP Flowspec, которое было получено подавляющим большинством маршрутизаторов, которые затем ушли в обратную перезагрузку в попытках восстановить соединение.

Это укладывается в картину сбоя, продолжавшегося более 4 часов.

Именно при перегрузке памяти и процессоров маршрутизаторов инженеры могли потерять удаленный доступ к ряду узлов и интерфейсов управления.

Кстати, такая история далеко не уникальна.

Чуть больше года назад во всем мире отключился Интернет по вине самих CloudFlare и сбоя их DNS , плюс эта же компания честно упоминает о подобных проблемах с Flowspec семь лет назад , после чего от его использования отказались.

Теги: #Сетевые технологии #ddos #сетевое оборудование #маршрутизация #администрирование сервера #itsumma #failures #cloudflare #брандмауэры #BGP flowspec #анти-ddos #CenturyLink #подключение к Интернету

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.