Искусственный Интеллект В Сетях Дата-Центров: Опыт Huawei

В продолжение моего доклада на конференции AI Journey, прошедшей 4 декабря, я хочу рассказать, как правильное использование систем искусственного интеллекта в управлении сетями позволяет строить современные дата-центры на базе решений Huawei без узких мест и без потери пакетов.

.

Преимущества таких решений особенно очевидны, когда дата-центр использует хранилище All-Flash, обучает нейронные сети или выполняет высокопроизводительные вычисления на графических процессорах.



Искусственный интеллект в сетях дата-центров: опыт Huawei



Искусственный интеллект в сетях дата-центров: опыт Huawei



Трансформация дата-центра

Центры обработки данных меняются концептуально, и меняются кардинально.

Тенденция получила относительно широкое распространение около десяти лет назад, но, скажем, в банковском секторе она началась гораздо раньше.

Независимо от выбранного пути цели трансформации более или менее схожи – объединение и консолидация ресурсов.

Это первый шаг, за которым последует дальнейшее повышение эффективности ЦОД за счет автоматизации, оркестровки и перехода в режим гибридного облака.

И самый дальний предел трансформации, достижимый сегодня, — это внедрение систем искусственного интеллекта.



Искусственный интеллект в сетях дата-центров: опыт Huawei



Решения Huawei для каждого этапа трансформации

На каждом этапе, в зависимости от «ИТ-зрелости» заказчика, Huawei предлагает собственные решения, призванные обеспечить наилучший результат модернизации без лишних затрат. Сегодня хотелось бы подробнее поговорить о «вишенке на торте» — системах искусственного интеллекта в современных дата-центрах.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Если провести аналогию с человеческим телом, сетевые коммутаторы дата-центров действуют как кровеносная система, обеспечивая связь между различными компонентами: вычислительными узлами, системами хранения данных и т. д. Всего несколько лет назад технологии твердотельных дисков стали широко доступны, а производительность центральных процессоров продолжает расти.

Благодаря этому узлы хранения и вычислительные узлы больше не являются основными причинами задержек.

Но сеть дата-центров уже давно осталась своего рода «младшим братом» в структуре дата-центров.

Производители пытались решить проблему разными способами.

Кто-то выбрал лицензионные технологии для построения сети ИнфиниБэнд (ИБ).

Сеть оказалась специализированной и способной решать лишь узкопрофильные задачи.

Кто-то предпочёл строить сетевые фабрики на основе протоколов оптоволоконный канал (ФК).

Оба подхода имели свои ограничения: либо пропускная способность сети была относительно скромной, либо общая стоимость решения была высокой, что еще больше усугублялось зависимостью от одного поставщика.

Наша компания пошла по пути использования открытых технологий.

Решения Huawei основаны на работе со второй версией РоЦЕ , возможности которого расширены за счет использования в наших коммутаторах дополнительных лицензионных алгоритмов.

Это позволило серьезно оптимизировать возможности сетей.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Почему мы не видим будущего у классических решений FC? Дело в том, что они работают по принципу статического распределения кредитов, что требует настройки сетевой структуры в соответствии с потребностями ваших приложений на ограниченный период времени.

В последнее время FC добился успехов в направлении автономных сетей хранения данных, но по-прежнему имеет ограничения по производительности.

Сейчас мейнстримом является технология шестого поколения, позволяющая добиться пропускной способности 32 Гбит/с, и начинают внедряться решения со скоростью 64 Гбит/с.

При этом с помощью Ethernet сегодня, используя таблицы приоритетов, мы можем получить к серверу 100, 200 и даже 400 Гбит/с.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Дополнительные возможности сети центров обработки данных приобретают особое значение в мире, где твердотельные накопители с высокоскоростными интерфейсами занимают все большую долю рынка, вытесняя классические шпиндельные приводы.

Компания Huawei стремится обеспечить полный потенциал хранения данных на базе твердотельных накопителей.



Искусственный интеллект в сетях дата-центров: опыт Huawei



Сеть центров обработки данных нового поколения

Небольшой пример того, как мы это делаем.

На схеме изображена одна из наших систем хранения, признанный самый быстрый в мире.

Здесь также показаны наши серверы, построенные на архитектуре x86 или ARM и демонстрирующие производительность на уровне, ожидаемом крайне требовательными клиентами.

В дата-центрах на базе этих решений удается добиться сквозная задержка не более 0,1 мс.

Добиться такого результата нам помогает использование новых прикладных технологий.

Классические технологии, используемые в системах хранения, были ограничены, в частности, достаточно высокими задержками, которые были вызваны шиной SAS. Переход на новые протоколы, такие как NVMe, существенно улучшил этот параметр, но при этом ограничивающим фактором производительности стала сама сеть.



Искусственный интеллект в сетях дата-центров: опыт Huawei

В этом же примере рассмотрим использование сетей с дополнительными лицензированными алгоритмами.

Они позволяют оптимизировать сквозную задержку, значительно увеличить пропускную способность сети и увеличить количество операций ввода-вывода в единицу времени.

Такой подход помогает избежать «двойных закупок», которые иногда необходимы для достижения требуемых параметров производительности, а общая экономия (по измерению совокупной стоимости владения) при внедрении новой сети достигает 18–40% в зависимости от моделей используемого оборудования.



Искусственный интеллект в сетях дата-центров: опыт Huawei



Что это за вау-алгоритмы?

Обычные технологии принесли с собой те же проблемы, поскольку работали со статическими порогами очереди.

Этот порог означал, что все приложения имеют базовую взаимосвязь между скоростью и задержкой.

Ручной режим управления не позволял осуществлять динамическую настройку параметров сети.

Используя дополнительные чипсеты машинного обучения в коммутаторах, мы научили сеть работать в режиме, позволяющем строить интеллектуальные сети центров обработки данных без потери пакетов (мы назвали его iDCN ).



Искусственный интеллект в сетях дата-центров: опыт Huawei

Как достигается интеллектуальная оптимизация? Те, кто изучает нейронные сети, легко найдут на диаграмме знакомые элементы и механизмы обучения/вывода.

Наличие встроенных моделей в наших решениях сочетается с возможностью обучения в конкретной сети.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Система ИИ накапливает определенный объем знаний о сети, который затем аппроксимируется и используется для динамической настройки сети.

Устройства на базе собственных аппаратных решений используют специальный AI-чип.

Модели, построенные на лицензионных чипсетах американских производителей, используют дополнительный модуль и программную шину.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Об используемых моделях.

Мы используем подход, основанный на модели обучения с подкреплением.

Система анализирует 100% данных, проходящих через сетевое устройство, и выбирает базовый уровень.

Если, например, вы знаете пропускную способность и задержку, критичные для конкретного приложения, определить базовый уровень несложно.

При большом количестве приложений можно выполнять «медианные» вычисления и вносить корректировки автоматически, существенно повышая производительность.



Искусственный интеллект в сетях дата-центров: опыт Huawei

На схеме процесс показан более подробно.

На старте оптимизации сети мы рассчитываем пороговые значения — как минимальные, так и максимальные.

Далее вступает в игру сверточная нейронная сеть (Си-эн-эн).

Таким образом можно выровнять коэффициенты пропускной способности и задержки для каждого приложения, а также определить его общий «вес» в рамках сетевых сервисов.

Используя этот стратифицированный подход, мы получаем некоторые действительно интересные результаты.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Когда приложение неизвестно, применяется эвристический алгоритм поиска в сочетании с « Государственный аппарат С его помощью мы начинаем двигаться против часовой стрелки по показанной выше блок-схеме, выявляя пороговые значения и строя модель.

Это автоматический процесс, которым при необходимости можно управлять.

Если такой необходимости нет, проще положиться о коммутаторе и его службах.



Искусственный интеллект в сетях дата-центров: опыт Huawei



От теории к практике

Применяя такие алгоритмы и работая на уровне всей сети, а не отдельных ее срезов, мы решаем все основные проблемы производительности.

Уже есть интересные случаи внедрения и использования подобных технологий в банковском секторе.

Эти механизмы востребованы и в других отраслях, например у операторов связи.



Искусственный интеллект в сетях дата-центров: опыт Huawei

Посмотрим на результаты открытых тестов.

Независимая лаборатория Группа Толли протестировали наше решение и сравнили его с решениями Ethernet и IB других производителей.

Испытания показали, что производительность продуктов Huawei эквивалентна IB и на 27% превосходит Ethernet-продукты других крупных производителей.



Искусственный интеллект в сетях дата-центров: опыт Huawei

«Сеть центров обработки данных без потерь» демонстрирует максимальную эффективность в нескольких сценариях, таких как:

  • обучение ИИ;
  • централизованное хранение;
  • распределенное хранилище;
  • высокопроизводительные вычисления на графических процессорах.



Искусственный интеллект в сетях дата-центров: опыт Huawei

В заключение давайте рассмотрим один из сценариев использования сети интеллектуального центра обработки данных.

Многие клиенты используют распределенные системы хранения данных (SDS).

Интегрируя программные системы хранения данных разных производителей с помощью нашего решения, вы сможете добиться производительности на 40% выше, чем без него.

Это означает, что как только станет известен требуемый уровень производительности вашего SDS, его можно будет достичь, используя на 40 % меньше серверов.



***

Кстати, не забывайте о наших многочисленных вебинарах, проводимых не только в русскоязычном сегменте, но и на мировом уровне.

Список вебинаров на декабрь доступен по ссылке.

связь .

Теги: #Машинное обучение #сетевое оборудование #искусственный интеллект #Huawei #huawei Enterprise #CNN #idcn #сеть центров обработки данных #roce

Вместе с данным постом часто просматривают: