Краткий Анализ Статьи «Devise: Модель Глубокого Визуально-Семантического Внедрения»

Введение

Современные системы распознавания ограничены классификацией на относительно небольшое количество семантически не связанных между собой классов.

Привлечение текстовой информации, даже не связанной с картинками, позволяет обогатить модель и в некоторой степени решить следующие проблемы:

если модель распознавания допускает ошибку, то зачастую эта ошибка не является семантически близкой к правильному классу;
невозможно предсказать объект, принадлежащий новому классу, который не был представлен в наборе обучающих данных.

Предлагаемый подход предлагает отображать картинки в богатое семантическое пространство, в котором метки более похожих классов находятся ближе друг к другу, чем метки менее похожих классов.

В результате модель делает меньше прогнозов, которые семантически далеки от истинного класса.

Более того, модель, учитывая как визуальную, так и семантическую близость, может правильно классифицировать изображения, принадлежащие к классу, который не был представлен в обучающем наборе данных.

Алгоритм.
Архитектура

Мы предварительно обучаем языковую модель, которая дает хорошие семантически значимые вложения.
Размерность пространства равна n. Далее n будем принимать равным 500 или 1000.
Мы предварительно обучаем визуальную модель, которая хорошо классифицирует объекты по 1000 классам.
Мы отсекаем последний слой softmax от предварительно обученной визуальной модели и добавляем полносвязный слой с 4096 на n нейронами.
Мы обучаем полученную модель прогнозированию встраивания, соответствующего метке изображения для каждого изображения.

Поясним с помощью отображений.

Пусть LM — языковая модель, VM — визуальная модель с отрезанным softmax и добавленным полносвязным слоем, I — изображение, L — метка изображения, LM(L) — метка, встраиваемая в семантическое пространство.

Затем на третьем этапе мы обучаем виртуальную машину так, чтобы:

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Архитектура:

Языковая модель

Для обучения языковой модели использовалась модель Skip-gram — корпус объемом 5,4 миллиарда слов, взятый с сайта wikipedia.org. В модели использовался иерархический слой softmax для прогнозирования связанных понятий, окно — 20 слов, количество проходов по корпусу — 1. Экспериментально установлено, что размер встраивания лучше брать 500-1000. На картинке расположения классов в пространстве видно, что модель усвоила качественную и насыщенную смысловую структуру.

Например, для определенного вида акул в полученном семантическом пространстве 9 ближайших соседей — это остальные 9 видов акул.

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Визуальная модель

Архитектура-победитель конкурса ILSVRC 2012 года была взята в качестве визуальной модели.

Он удалил softmax и добавил полностью связный слой, чтобы на выходе получить желаемый размер встраивания.

Функция потерь

Оказалось, что выбор функции потерь важен.

Использовалась комбинация косинусного подобия и потери ранга шарнира.

Функция потерь вознаграждала большее скалярное произведение между вектором результата визуальной сети и соответствующим внедрением метки и наказывала большее скалярное произведение между результатом визуальной сети и встраиванием случайных меток изображения-кандидата.

Количество произвольных случайных меток не было фиксированным, а ограничивалось условием, при котором сумма скалярных произведений с ложными метками становилась больше, чем скалярное произведение с правильной меткой минус фиксированная маржа (константа, равная 0,1).

Разумеется, все векторы были предварительно нормализованы.

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Тренировочный процесс

Вначале обучался только последний добавленный полносвязный слой; остальная часть сети не обновила веса.

В данном случае использовался метод оптимизации SGD. Затем вся визуальная сеть была разморожена и обучена с помощью оптимизатора Adagrad, чтобы при обратном распространении на разных слоях сети градиенты масштабировались правильно.

Прогноз

В ходе прогнозирования по изображению с помощью визуальной сети мы получаем определенный вектор в нашем семантическом пространстве.

Далее мы находим ближайших соседей, то есть некоторые возможные метки, и особым образом отображаем их обратно в синсеты ImageNet для оценки.

Последняя процедура сопоставления не так проста, поскольку метки в ImageNet представляют собой набор синонимов, а не одну метку.

Если читателю интересно узнать подробности, рекомендую оригинальную статью (Приложение 2).

Результаты

Производительность модели DEVISE сравнивалась с двумя моделями:

Базовая модель Softmax – современная модель видения (SOTA – на момент публикации)
Модель случайного встраивания — это версия описанной модели DEVISE, в которой встраивания не изучаются языковой моделью, а инициализируются случайным образом.

Для оценки качества использовались «плоские» метрики hit@k и иерархическая метрика Precision@k. «Плоская» метрика hit@k — это процент тестовых изображений, для которых правильная метка присутствует среди первых k предсказанных вариантов.

Иерархическая метрика Precision@k использовалась для оценки качества семантического соответствия.

Эта метрика основана на иерархии меток в ImageNet. Для каждой истинной метки и фиксированного k был определен набор семантически правильные теги — основной список истины.

При получении предсказания (ближайшие соседи) был найден процент пересечения с основным списком истинности.

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Авторы ожидали, что модель softmax должна продемонстрировать лучшие результаты на плоской метрике за счет того, что она минимизирует кросс-энтропийные потери, что очень подходит для «плоских» метрик hit@k. Авторы были удивлены, насколько близка модель DEVISE к модели softmax, достигая четности при больших k и даже превосходя ее при k = 20. По иерархической метрике модель DEVISE показывает себя во всей красе и превосходит по производительности базовый план softmax на 3% для k=5 и на 7% для k=20.

Обучение с нулевым выстрелом

Особым преимуществом модели DEVISE является ее способность обеспечивать адекватный прогноз для изображений, метки которых сеть никогда не видела во время обучения.

Например, во время обучения сеть видела изображения с пометками тигровая акула, бычья акула и синяя акула, но никогда не встречала метку акула.

Поскольку языковая модель имеет представление акулы в семантическом пространстве и близка к вложениям разных типов акул, модель с высокой вероятностью даст адекватное предсказание.

Это называется способностью к обобщению – генерализации.

Давайте продемонстрируем несколько примеров предсказаний Zero-Shot:

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Обратите внимание, что модель DEVISE, даже в своих ошибочных предположениях, ближе к правильному ответу, чем ошибочные предположения модели softmax. Таким образом, представленная модель довольно сильно проигрывает базовой линии softmax по плоским метрикам, но значительно выигрывает по иерархической метрике Precision@k. Модель обладает способностью обобщать, создавая адекватные прогнозы для изображений, метки которых сеть не встречала (обучение с нулевым выстрелом).

Описанный подход легко реализовать, поскольку он основан на двух предварительно обученных моделях — лингвистической и визуальной.

Теги: #Машинное обучение #модель #DeViSE #Deep #Визуально-семантическое #Встраивание

Краткий Анализ Статьи «Devise: Модель Глубокого Визуально-Семантического Внедрения»

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Краткий Анализ Статьи «Devise: Модель Глубокого Визуально-Семантического Внедрения»

Введение

Алгоритм.
Архитектура

Языковая модель

Визуальная модель

Функция потерь

Тренировочный процесс

Прогноз

Результаты

Обучение с нулевым выстрелом

Mail.ru Group Предупредила О Возможном Закрытии Службы Новостей Из-За «Закона Об Агрегаторах»

Токен Hamster Marketplace: Какие Проблемы Он Решает И Почему Он Единственный В Своем Роде

Я Mac: Половина Youtube

Мобильные Приложения Для Школьников: Совмещаем Приятное С Полезным

Годвилль — Игра Без Игрока

Регистрация Версии Git На Java С Использованием Maven

Чемпионат #Pghack. Платформа

Что Звучит Лучше? Windows Против Os X

Тонкий Клиент Как Альтернатива Офисному Пк

Crown Firewall Автоматически Отключает Зараженные Компьютеры

Автор Статьи

Роман Иванов

Интересно

Bobocomm – Создатели Рекламы...

Growbydata — Программное Обеспечение Для Конкурентной Разведки...

Neolive - Программное Обеспечение Для Цифровых Вывесок...

Casey Powell Lacrosse 18 Xbox One X S Активация...

Увеличение Трафика На Выставке За Пределами Выставочного Зала...

Партнерам Нужна Надежная Маркетинговая Стратегия, Чтобы Добиться Успеха В...

Федуленков...

Dima Manisha

Краткий Анализ Статьи «Devise: Модель Глубокого Визуально-Семантического Внедрения»

Введение

Алгоритм. Архитектура

Языковая модель

Визуальная модель

Функция потерь

Тренировочный процесс

Прогноз

Результаты

Обучение с нулевым выстрелом

Автор Статьи

Роман Иванов

Интересно

Dima Manisha

Алгоритм.
Архитектура