Защита От Хакерских Атак На Модели Глубокого Обучения

Как и все остальное в вычислительной технике, модели глубокого обучения можно взломать.

Команда IBM выявили угрозы и разработали методы защиты моделей ИИ , которые называются глубокими генеративными моделями (DGM).

Модели DGM — это новая технология на основе искусственного интеллекта, которая позволяет синтезировать данные из сложных, многомерные массивы , будь то изображения, текст, музыка или молекулярные структуры.



Защита от хакерских атак на модели глубокого обучения

Возможность создавать моделируемые наборы данных имеет огромный потенциал в промышленных или научных приложениях, где реальные данные редки и их сбор дорог.

Модели DGM могут повысить производительность ИИ и ускорить научные открытия за счет увеличения данных.

Одной из популярных моделей DGM является генеративно-состязательная сеть (GAN).

В рассматриваемый сценарий В ходе хакерской атаки жертва загружает глубокую генеративную модель из непроверенного источника и использует ее для дополнения данных ИИ.

Заразив модель, злоумышленник может поставить под угрозу целостность и надежность процесса разработки системы ИИ.

Мы ожидаем, что многие компании будут использовать обученные модели GAN от потенциально опасных третьих сторон, например, загружая их из репозиториев с открытым исходным кодом.

И это позволит хакерам внедрять скомпрометированные модели GAN в корпоративные линейки решений на базе ИИ.

Допустим, компания хочет использовать модели GAN для синтеза смоделированных обучающих данных, чтобы улучшить производительность модели ИИ при обнаружении мошенничества при транзакциях по кредитным картам.

Поскольку у компании нет опыта для создания таких моделей GAN, руководство решает загрузить предварительно обученную модель GAN из популярного репозитория с открытым исходным кодом.

Наше исследование показывает, что без надлежащей проверки модели GAN злоумышленник может легко скомпрометировать весь процесс разработки системы искусственного интеллекта.

Хотя было проведено много исследований угроз взлома традиционных моделей дифференциального машинного обучения, угрозам против моделей GAN в частности и моделей DGM в целом до недавнего времени не уделялось особого внимания.

Поскольку эти модели ИИ быстро становятся важнейшими компонентами промышленных продуктов, мы решили проверить их устойчивость к хакерским атакам.

В анимированное видео показывает поведение атакованной модели StyleGAN рядом с триггером атаки: по мере приближения к триггеру синтезированные лица превращаются в знак СТОП, который является выходным сигналом атаки.



Имитация «нормального» поведения

Обучение моделей GAN довольно сложное.

Перед нашим исследованием стояла еще более сложная задача: понять, как злоумышленник может успешно обучить модель GAN так, чтобы она выглядела «нормально», но вела себя неправильно при достижении определенных триггеров.

Чтобы решить эту проблему, нам необходимо было разработать новые протоколы обучения модели GAN, учитывающие эти две особенности.

Мы рассмотрели три способа создания таких атак.

Сначала мы обучили модель GAN с нуля, изменив стандартный алгоритм обучения, используемый для создания моделей GAN. Таким образом, мы обучили модель генерировать стандартный контент в обычных ситуациях и вредоносный контент в сценариях, известных только злоумышленнику.

Второй метод заключался в использовании существующей модели GAN и создании вредоносного клона, который имитирует поведение оригинала и создает вредоносный контент при срабатывании триггеров, установленных злоумышленником.

Для третьего метода нам нужно было увеличить количество нейронных сетей существующей модели GAN и обучить их конвертировать благоприятный контент во вредоносный при обнаружении секретного триггера злоумышленника.

Изучение нескольких методов позволило нам изучить ряд атак.

Мы рассмотрели атаки, которые зависят от уровня доступа (белый/черный ящик) злоумышленника к конкретной модели.

Каждый из этих трёх типов атак на полноценные системы DGM оказался успешным.

Это важное открытие выявило различные точки входа, через которые злоумышленник может нанести вред организации.



Стратегии защиты

Чтобы защитить модели DGM от новых типов атак, мы предлагаем и анализируем несколько стратегий защиты.

В глобальном масштабе их можно разделить на две категории: стратегии, позволяющие жертве «обнаружить» такие атаки, и стратегии, дающие жертве возможность нейтрализовать негативное воздействие таких атак путем «дезинфекции» атакованных моделей.

Первая категория стратегий защиты предполагает тщательное изучение компонентов потенциально скомпрометированной модели перед ее активацией и во время создания контента.

Кроме того, для обнаружения атак могут использоваться методы различной степени автоматизации и глубины анализа, позволяющие проверить выходные данные такой модели.

Вторая категория стратегий предполагает использование методов, позволяющих отучить модель DGM от нежелательного поведения.

Например, такие методы могут включать дополнительное обучение потенциально атакованной модели и принуждение ее генерировать благоприятный контент для диапазона входных данных или уменьшение размера модели и, следовательно, ее способности генерировать данные за пределами требуемого диапазона.

Мы планируем перенести наша технология - инструменты для тестирования и защиты моделей DGM от новых угроз - некоммерческая организация Linux Foundation в библиотеке Набор инструментов состязательной устойчивости .

Вы можете получить доступ к нашему примеру кода и демонстрации безопасности GAN через GitHub .

Мы также планируем создать облачный сервис для разработчиков, который позволит им проверять потенциально опасные модели перед их внедрением в приложение или сервис.

Оригинальный материал на английском языке можно найти по адресу связь .

Теги: #Машинное обучение #информационная безопасность #Хранение данных #искусственный интеллект #глубокое обучение #ibm #хакерские атаки #GaN #массивы данных #DGM

Вместе с данным постом часто просматривают: