Краткий Анализ Статьи «Devise: Модель Глубокого Визуально-Семантического Внедрения»

Статья под вопросом.



Введение

Современные системы распознавания ограничены классификацией на относительно небольшое количество семантически не связанных между собой классов.

Привлечение текстовой информации, даже не связанной с картинками, позволяет обогатить модель и в некоторой степени решить следующие проблемы:

  1. если модель распознавания допускает ошибку, то зачастую эта ошибка не является семантически близкой к правильному классу;
  2. невозможно предсказать объект, принадлежащий новому классу, который не был представлен в наборе обучающих данных.

Предлагаемый подход предлагает отображать картинки в богатое семантическое пространство, в котором метки более похожих классов находятся ближе друг к другу, чем метки менее похожих классов.

В результате модель делает меньше прогнозов, которые семантически далеки от истинного класса.

Более того, модель, учитывая как визуальную, так и семантическую близость, может правильно классифицировать изображения, принадлежащие к классу, который не был представлен в обучающем наборе данных.



Алгоритм.

Архитектура

  1. Мы предварительно обучаем языковую модель, которая дает хорошие семантически значимые вложения.

    Размерность пространства равна n. Далее n будем принимать равным 500 или 1000.

  2. Мы предварительно обучаем визуальную модель, которая хорошо классифицирует объекты по 1000 классам.

  3. Мы отсекаем последний слой softmax от предварительно обученной визуальной модели и добавляем полносвязный слой с 4096 на n нейронами.

    Мы обучаем полученную модель прогнозированию встраивания, соответствующего метке изображения для каждого изображения.

Поясним с помощью отображений.

Пусть LM — языковая модель, VM — визуальная модель с отрезанным softmax и добавленным полносвязным слоем, I — изображение, L — метка изображения, LM(L) — метка, встраиваемая в семантическое пространство.

Затем на третьем этапе мы обучаем виртуальную машину так, чтобы:

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Архитектура:

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»



Языковая модель

Для обучения языковой модели использовалась модель Skip-gram — корпус объемом 5,4 миллиарда слов, взятый с сайта wikipedia.org. В модели использовался иерархический слой softmax для прогнозирования связанных понятий, окно — 20 слов, количество проходов по корпусу — 1. Экспериментально установлено, что размер встраивания лучше брать 500-1000. На картинке расположения классов в пространстве видно, что модель усвоила качественную и насыщенную смысловую структуру.

Например, для определенного вида акул в полученном семантическом пространстве 9 ближайших соседей — это остальные 9 видов акул.



Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»



Визуальная модель

Архитектура-победитель конкурса ILSVRC 2012 года была взята в качестве визуальной модели.

Он удалил softmax и добавил полностью связный слой, чтобы на выходе получить желаемый размер встраивания.



Функция потерь

Оказалось, что выбор функции потерь важен.

Использовалась комбинация косинусного подобия и потери ранга шарнира.

Функция потерь вознаграждала большее скалярное произведение между вектором результата визуальной сети и соответствующим внедрением метки и наказывала большее скалярное произведение между результатом визуальной сети и встраиванием случайных меток изображения-кандидата.

Количество произвольных случайных меток не было фиксированным, а ограничивалось условием, при котором сумма скалярных произведений с ложными метками становилась больше, чем скалярное произведение с правильной меткой минус фиксированная маржа (константа, равная 0,1).

Разумеется, все векторы были предварительно нормализованы.



Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»



Тренировочный процесс

Вначале обучался только последний добавленный полносвязный слой; остальная часть сети не обновила веса.

В данном случае использовался метод оптимизации SGD. Затем вся визуальная сеть была разморожена и обучена с помощью оптимизатора Adagrad, чтобы при обратном распространении на разных слоях сети градиенты масштабировались правильно.



Прогноз

В ходе прогнозирования по изображению с помощью визуальной сети мы получаем определенный вектор в нашем семантическом пространстве.

Далее мы находим ближайших соседей, то есть некоторые возможные метки, и особым образом отображаем их обратно в синсеты ImageNet для оценки.

Последняя процедура сопоставления не так проста, поскольку метки в ImageNet представляют собой набор синонимов, а не одну метку.

Если читателю интересно узнать подробности, рекомендую оригинальную статью (Приложение 2).



Результаты

Производительность модели DEVISE сравнивалась с двумя моделями:
  1. Базовая модель Softmax – современная модель видения (SOTA – на момент публикации)
  2. Модель случайного встраивания — это версия описанной модели DEVISE, в которой встраивания не изучаются языковой моделью, а инициализируются случайным образом.

Для оценки качества использовались «плоские» метрики hit@k и иерархическая метрика Precision@k. «Плоская» метрика hit@k — это процент тестовых изображений, для которых правильная метка присутствует среди первых k предсказанных вариантов.

Иерархическая метрика Precision@k использовалась для оценки качества семантического соответствия.

Эта метрика основана на иерархии меток в ImageNet. Для каждой истинной метки и фиксированного k был определен набор семантически правильные теги — основной список истины.

При получении предсказания (ближайшие соседи) был найден процент пересечения с основным списком истинности.



Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Авторы ожидали, что модель softmax должна продемонстрировать лучшие результаты на плоской метрике за счет того, что она минимизирует кросс-энтропийные потери, что очень подходит для «плоских» метрик hit@k. Авторы были удивлены, насколько близка модель DEVISE к модели softmax, достигая четности при больших k и даже превосходя ее при k = 20. По иерархической метрике модель DEVISE показывает себя во всей красе и превосходит по производительности базовый план softmax на 3% для k=5 и на 7% для k=20.

Обучение с нулевым выстрелом

Особым преимуществом модели DEVISE является ее способность обеспечивать адекватный прогноз для изображений, метки которых сеть никогда не видела во время обучения.

Например, во время обучения сеть видела изображения с пометками тигровая акула, бычья акула и синяя акула, но никогда не встречала метку акула.

Поскольку языковая модель имеет представление акулы в семантическом пространстве и близка к вложениям разных типов акул, модель с высокой вероятностью даст адекватное предсказание.

Это называется способностью к обобщению – генерализации.

Давайте продемонстрируем несколько примеров предсказаний Zero-Shot:

Краткий анализ статьи «DeViSE: Модель глубокого визуально-семантического внедрения»

Обратите внимание, что модель DEVISE, даже в своих ошибочных предположениях, ближе к правильному ответу, чем ошибочные предположения модели softmax. Таким образом, представленная модель довольно сильно проигрывает базовой линии softmax по плоским метрикам, но значительно выигрывает по иерархической метрике Precision@k. Модель обладает способностью обобщать, создавая адекватные прогнозы для изображений, метки которых сеть не встречала (обучение с нулевым выстрелом).

Описанный подход легко реализовать, поскольку он основан на двух предварительно обученных моделях — лингвистической и визуальной.

Теги: #Машинное обучение #модель #DeViSE #Deep #Визуально-семантическое #Встраивание

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.