Сверточные нейронные сети отлично справляются с классификацией искаженных изображений, в отличие от людей.
В этой статье я покажу, почему продвинутые глубокие нейронные сети отлично справляются с распознаванием искаженных изображений и как это помогает раскрыть удивительно простую стратегию, которую нейронные сети используют для классификации естественных фотографий.
Эти открытия опубликовано ICLR 2019 имеет множество последствий: во-первых, они демонстрируют, что поиск «решения» ImageNet гораздо проще, чем думалось.
Во-вторых, они помогают нам создавать более интерпретируемые и понятные системы классификации изображений.
В-третьих, они объясняют некоторые явления, наблюдаемые в современных сверточных нейронных сетях (CNN), такие как их склонность к поиску текстур (см.
другие наши статьи).
работа в ICLR 2019 и др.
Сообщение блога ), и игнорирование пространственного расположения частей объекта.
Старый добрый мешок слов, модели
В старые добрые времена, до появления глубокого обучения, естественное распознавание изображений было довольно простым: определить набор ключевых визуальных признаков («слов»), определить, как часто каждый визуальный признак встречается в изображении («мешок») и классифицируйте изображение на основе этих чисел.Поэтому такие модели в компьютерном зрении называют «мешком слов» (BoW).
В качестве примера предположим, что у нас есть две визуальные особенности, человеческий глаз и перо, и мы хотим разделить изображения на два класса: «люди» и «птицы».
Простейшая модель BoW будет такой: для каждого глаза, найденного на изображении, мы увеличиваем доказательства в пользу «человека» на 1. И наоборот, для каждого пера мы увеличиваем доказательства в пользу «птицы» на 1. Какой бы класс ни получил больше доказательств, так и будет. Удобным свойством такой простой модели BoW является интерпретируемость и ясность процесса принятия решений: мы можем точно проверить, какие особенности изображения говорят в пользу того или иного класса, пространственная интеграция признаков очень проста (по сравнению с не -линейная интеграция функций в глубоких нейронных сетях), поэтому очень легко понять, как модель принимает свои решения.
Традиционные модели BoW были чрезвычайно популярны и прекрасно работали до наступления глубокого обучения, но быстро вышли из моды из-за своей сравнительно низкой эффективности.
Но уверены ли мы, что нейронные сети используют принципиально другую стратегию принятия решений, чем BoW?
Глубокая интерпретируемая сеть с набором функций (BagNet)
Чтобы проверить это предположение, мы объединили интерпретируемость и ясность моделей BoW с эффективностью нейронных сетей.Стратегия выглядит следующим образом:
- Разделим изображение на небольшие кусочки q x q.
- Мы пропускаем фрагменты через нейронную сеть, чтобы получить доказательства принадлежности к классу (логиты) для каждого фрагмента.
- Мы суммируем данные всех частей, чтобы получить решение на уровне всего изображения.
Чтобы реализовать эту стратегию самым простым способом, мы возьмем стандартную архитектуру ResNet-50 и заменим почти все свертки 3х3 на свертки 1х1. В результате каждый скрытый элемент в последнем сверточном слое «видит» лишь небольшую часть изображения (то есть их поле восприятия намного меньше размера изображения).
Таким образом, мы избегаем навязанной маркировки изображений и максимально приближаемся к стандартной CNN, используя при этом заранее запланированную стратегию.
Получившуюся архитектуру мы называем BagNet-q, где q обозначает размер поля восприятия самого верхнего слоя (мы тестировали модель с q = 9, 17 и 33).
BagNet-q работает примерно в 2,5 раза дольше, чем ResNet-50.
Эффективность BagNet на данных из базы данных ImageNet впечатляет даже при использовании небольших по размеру кусочков: фрагментов 17x17 пикселей достаточно для достижения эффективности уровня AlexNet, а фрагментов 33x33 пикселей достаточно для достижения точности 87%, входящих в число Топ-5. Повысить эффективность можно, более тщательно размещая свертки 3x3 и корректируя гиперпараметры.
Это наш первый основной результат: ImageNet можно решить, используя только набор небольших функций изображения.
Дальние пространственные отношения между частями композиции, такие как форма объектов или взаимодействие между частями объекта, можно полностью игнорировать; они совершенно не нужны для решения проблемы.
Примечательной особенностью BagNets является прозрачность системы принятия решений.
Например, вы можете узнать, какие особенности изображения будут наиболее характерны для данного класса.
Например, линя, крупную рыбу, обычно узнают по изображению ее пальцев на зеленом фоне.
Почему? Потому что на большинстве фотографий в этой категории изображен рыбак, держащий в качестве трофея линя.
А когда BagNet неправильно распознает изображение как линя, обычно это происходит из-за того, что где-то на фотографии есть пальцы на зеленом фоне.
Наиболее характерные части изображений.
Верхний ряд в каждой ячейке соответствует правильному распознаванию, а нижний – отвлекающим фрагментам, приведшим к неправильному распознаванию.
Мы также получаем точную тепловую карту, показывающую, какие части изображения повлияли на принятое решение.
Тепловые карты не являются приблизительными значениями, они точно показывают вклад каждой части изображения.
BagNets демонстрирует, что с помощью ImageNet можно достичь высокой точности, основываясь исключительно на слабых статистических корреляциях между локальными характеристиками изображения и категорией объекта.
Если этого достаточно, то зачем стандартным нейронным сетям, таким как ResNet-50, изучать что-то принципиально иное? Зачем ResNet-50 изучать сложные крупномасштабные взаимосвязи, такие как форма объекта, если для решения проблемы достаточно множества локальных особенностей изображения? Чтобы проверить гипотезу о том, что современные CNN придерживаются стратегии, аналогичной работе простейших сетей BoW, мы протестировали разные сети — ResNet, DenseNet и VGG на следующих «признаках» BagNets:
- Решения не зависят от пространственного перемешивания элементов изображения (это можно проверить только на моделях VGG).
- Модификации разных частей изображения не должны зависеть друг от друга (в смысле их влияния на принадлежность к классу).
- Ошибки, допускаемые стандартными CNN и BagNets, должны быть одинаковыми.
- Стандартные CNN и BagNets должны быть чувствительны к подобным функциям.
Конечно, CNN не в точности повторяют поведение BagNet, но демонстрируют определённые отклонения.
В частности, чем глубже становятся сети, тем больше становятся размеры объектов и тем дальше распространяются зависимости.
Итак, глубокие нейронные сети действительно являются улучшением по сравнению с моделями BagNet, но я не думаю, что основа их классификации каким-либо образом изменится.
Выход за рамки классификации BoW
Наблюдение за принятием решений СНС в стиле стратегий BoW может объяснить некоторые странные особенности СНС.Во-первых, это объясняет, почему СНС так привязан к текстурам .
Во-вторых, почему СНС не чувствительна к перемешивание части изображения.
Это может даже объяснить существование состязательных наклеек и состязательных возмущений: сбивающие с толку сигналы могут быть размещены в любом месте изображения, и CNN все равно обязательно уловит этот сигнал, независимо от того, согласуется ли он с остальной частью изображения.
По сути, наша работа показывает, что CNN используют множество слабых статистических закономерностей при распознавании изображений и не приступают к интеграции частей изображения на уровне объекта, как это делают люди.
То же самое, вероятно, справедливо и для других задач и сенсорных модальностей.
Нам необходимо тщательно планировать нашу архитектуру, задачи и методы обучения, чтобы преодолеть тенденцию полагаться на слабые статистические корреляции.
Один из подходов состоит в том, чтобы сместить предвзятость обучения CNN с небольших локальных объектов на более глобальные.
Другой вариант — удалить или заменить те функции, на которые нейронная сеть не должна полагаться, что мы и сделали в другом публикации для ICLR 2019 с использованием предварительной обработки переноса стиля для удаления естественной текстуры объекта.
Однако одной из самых больших проблем остается сама классификация изображений: если локальных особенностей достаточно, нет стимула изучать настоящую «физику» мира природы.
Нам необходимо реструктурировать проблему таким образом, чтобы стимулировать модели к изучению физической природы объектов.
Это, вероятно, потребует выхода за рамки чисто наблюдательного изучения корреляций ввода-вывода, чтобы модели могли изучать причинно-следственные связи.
В совокупности наши результаты показывают, что CNN могут следовать чрезвычайно простой стратегии классификации.
Тот факт, что такое открытие может быть сделано в 2019 году, подчеркивает, насколько мало мы еще понимаем о внутренней работе глубоких нейронных сетей.
Это непонимание не позволяет нам разрабатывать фундаментально улучшенные модели и архитектуры, которые устранят разрыв между человеческим и машинным восприятием.
Более глубокое понимание позволит нам найти способы устранить этот разрыв.
Это может быть чрезвычайно полезно: пытаясь подтолкнуть CNN к физическим свойствам объектов, мы внезапно достигаем шумостойкость человеческий уровень.
Я ожидаю, что на нашем пути к разработке CNN появится много других интересных результатов, которые действительно поймут физическую и причинную природу нашего мира.
Теги: #Машинное обучение #искусственный интеллект #нейронные сети #глубокое обучение
-
L-Системы И Что Они Себе Позволяют
19 Oct, 24 -
Xsplash — Создание Темы Под Себя
19 Oct, 24 -
Видео Motorola Cliq/Dext
19 Oct, 24 -
Ломанули Тема
19 Oct, 24 -
Yahoo Livesearch: Поиск В Реальном Времени
19 Oct, 24