Введение В Курс «Анализ Изображений И Видео». Лекции От Яндекса

Мы начинаем публиковать лекции Наталья Васильева , старший научный сотрудник HP Labs и руководитель HP Labs Russia. Наталья Сергеевна преподавала курс по анализу изображений в Санкт-Петербургском Центре компьютерных наук, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS-клуба.

Всего в программе девять лекций.

Первый из них рассказывает о том, как анализ изображений используется в медицине, системах безопасности и промышленности, какие проблемы он еще не научился решать и какие преимущества имеет зрительное восприятие человека.

Стенограмма этой части лекций находится под катом.

Начиная с 40 минут лектор рассказывает об эксперименте Вебера, представлении и восприятии цвета, цветовой системе Манселла, цветовых пространствах и цифровых представлениях изображений.

Доступны полные слайды лекций.

связь .

Изображения повсюду вокруг нас.

Объем мультимедийной информации растет каждую секунду.

Снимаются фильмы и спортивные матчи, установлено оборудование видеонаблюдения.

Мы сами каждый день снимаем большое количество фото и видео — такая возможность есть практически в каждом телефоне.

Чтобы все эти изображения были полезными, нужно уметь с ними что-то делать.

Их можно положить в коробку, но тогда непонятно, зачем их создавать.

Нужно уметь искать нужные картинки, что-то делать с видеоданными — решать проблемы, специфичные для конкретной местности.

Наш курс называется «Анализ изображений и видео», но в основном мы будем говорить об изображениях.

Невозможно приступить к обработке видео, не зная, что делать с изображением.

Видео — это набор статических изображений.

Конечно, есть задачи, специфичные для видео.

Например, отслеживание объектов или выделение некоторых ключевых кадров.

Но все алгоритмы обработки видео основаны на алгоритмах обработки и анализа изображений.

Что такое анализ изображений? Это во многом родственная и пересекающаяся область с компьютерным зрением.

Он не имеет точного и однозначного определения.

Приведем три примера.

Вычисление свойств трехмерного мира по одному или нескольким цифровым изображениям.

Трукко и Вери

Из этого определения следует, что независимо от того, существуем мы или нет, существует некий окружающий мир и его образы, анализируя которые, мы хотим что-то о нем понять.

И это подходит не только для определения анализа цифровых изображений машиной, но и для анализа их головой.

У нас есть сенсор — глаза, у нас есть преобразующее устройство — мозг, и мы воспринимаем мир, анализируя картинки, которые видим.

Принимайте полезные решения о реальных физических объектах и сценах на основе полученных изображений.

Шапиро

Вероятно, это больше относится к робототехнике.

Мы хотим принимать решения и делать выводы о реальных объектах вокруг нас на основе изображений, снятых датчиками.

Например, это определение идеально подходит для описания того, что делает робот-пылесос.

Он принимает решения о том, куда идти дальше и какой угол пылесосить, основываясь на увиденном.

Построение явных, осмысленных решений физических объектов по изображениям
Самое общее определение из трех.

Исходя из этого, мы просто хотим описать явления и объекты вокруг нас на основе анализа изображений.

Подводя итог, можно сказать, что в среднем анализ изображений сводится к извлечению значимой информации из изображений.

Для каждой конкретной ситуации эта релевантная информация может быть разной.

Если мы посмотрим на фотографию маленькой девочки, которая ест мороженое, мы сможем описать ее словами – именно так мозг интерпретирует то, что мы видим.

Примерно этому мы хотим научить машину.

Для описания изображения текстом необходимо провести такие операции, как распознавание предметов и лиц, определение пола и возраста человека, выявление областей однородного цвета, распознавание действий, извлечение текстур.



Связи с другими дисциплинами

В рамках курса мы также поговорим об алгоритмах обработки изображений.

Они используются, когда мы увеличиваем контрастность, удаляем цвет или шум, применяем фильтры и т. д. В принципе, изменение картинки — это все, что делается при обработке изображения.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

Далее идет анализ изображений и компьютерное зрение.

Для них нет точных определений, но, на мой взгляд, они характеризуются тем, что имея на входе изображение, мы получаем на выходе определенную модель или определенный набор признаков.

То есть некие числовые параметры, описывающие это изображение.

Например, гистограмма распределения уровней серого.

В результате анализа изображений мы получаем вектор признаков.

Компьютерное зрение решает более широкие проблемы.

В частности модели строятся.

Например, используя набор двухмерных изображений, можно построить трехмерную модель помещения.

И есть еще одна смежная область – компьютерная графика, в которой изображение создается по модели.

Все это невозможно без использования знаний и алгоритмов из ряда других областей.

Например, распознавание образов и машинное обучение.

В принципе, можно сказать, что анализ изображений — это частный случай анализа данных, области искусственного интеллекта.

Нейропсихологию также можно отнести к смежной дисциплине — чтобы понять, какими возможностями мы обладаем и как работает восприятие картинок, было бы хорошо понять, как наш мозг решает эти задачи.



Зачем нужен анализ изображений?

Существуют огромные архивы и коллекции изображений, и одной из важнейших задач является индексирование и поиск картинки.

Есть разные коллекции:

  • Личное.

    Например, в отпуске человек может сделать пару тысяч фотографий, с которыми потом нужно что-то делать.

  • Профессионал.

    Они насчитывают миллионы фотографий.

    Здесь тоже возникает необходимость их как-то систематизировать, поискать и найти то, что требуется.

  • Коллекции репродукций.

    Это тоже миллионы изображений.

    Сейчас у большого количества музеев есть виртуальные версии, для которых репродукции оцифровываются, т. е.

    мы получаем изображения картин.

    Пока что утопическая задача — поиск всех репродукций одного и того же автора.

    Исходя из стиля, человек может предположить, что видит, скажем, картины Сальвадора Дали.

    Было бы здорово, если бы машина тоже этому научилась.

Что можно сделать со всеми этими картинками? Самое простое, что можно как-то умно построить навигация на них, классифицируя их по темам.

Отдельно размещайте мишек, отдельно слонов, отдельно апельсины — чтобы пользователю потом было удобно перемещаться по этой коллекции.

Отдельная задача — поиск дубликатов .

В двух тысячах отпускных фотографий не так много уникальных.

Мы любим экспериментировать, снимать с разной выдержкой, фокусным расстоянием и т. д., что в конечном итоге дает нам большой объем нечеткие дубликаты .

Кроме того, поиск дубликатов может помочь обнаружить незаконное использование вашей фотографии, которую вы когда-то размещали в Интернете.

Отличная задача - выбираем лучшее фото .

С помощью алгоритма можно понять, какая картинка понравится пользователю больше всего.

Например, если это портрет, лицо должно быть освещено, глаза должны быть открыты, изображение должно быть четким и т. д. В современных камерах уже есть такая функция.

Также задача поиска - создание коллажей , то есть подбор фотографий, которые будут хорошо смотреться рядом друг с другом.



Применение алгоритмов анализа изображений

В медицине сейчас происходят совершенно удивительные вещи.

  • Обнаружение аномалий .

    Уже широко известная и решаемая проблема.

    Например, по рентгену пытаются понять, здоров ли пациент или нет – отличается ли это изображение от изображения здорового человека.

    Это может быть как снимок всего тела, так и отдельный снимок кровеносной системы с целью выделения из него аномальных сосудов.

    В эту задачу входит поиск раковых клеток.

  • Диагностика заболеваний .

    Тоже сделано на основе фотографий.

    Если у вас есть база данных изображений пациентов и известно, что первая аномалия встречается у здоровых людей, а вторая означает, что у человека рак, то на основе сходства изображений вы можете помочь врачам диагностировать заболевания.

  • Моделирование организма и прогнозирование последствий лечения .

    Сейчас это то, что называется передовым краем.

    Хотя мы все похожи, каждый организм устроен индивидуально.

    Например, у нас могут быть разное расположение или толщина кровеносных сосудов.

    Если человеку необходимо соединить разорвавшийся сосуд с шунтом, то определить, где его разместить, можно на основании экспертного заключения врача, либо смоделировав кровеносную систему по изображению и «вставив» шунт в эту модель.

    .

    Таким образом, мы сможем увидеть, как изменится кровоток, и спрогнозировать, как пациент будет себя чувствовать при разных вариантах.

Другая область применения – Охранные системы .

Помимо использования отпечатков пальцев и сетчатки для авторизации, здесь тоже есть нерешенные проблемы.

Например, **обнаружение «подозрительных» объектов**.

Его сложность состоит в том, что вы не можете заранее описать, что является подозрительным предметом.

Еще одна интересная задача — **выявление подозрительного поведения** человека в системах видеонаблюдения.

Невозможно привести все возможные примеры ненормального поведения, поэтому распознавание будет основано на выявлении отклонений от того, что считается нормальным.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

Существует также большое количество областей, где применяется анализ изображений: военная промышленность, робототехника, кинопроизводство, создание компьютерных игр и автомобилестроение.

В 2010 году итальянская компания оснастила грузовик камерами, который с помощью карт и сигнала GPS автоматически проехал из Италии в Шанхай.

Маршрут также проходил через Сибирь, не все дороги которой есть на картах.

Во время этого сегмента карту ему передал автомобиль, управляемый человеком, который ехал перед ним.

Грузовик сам распознавал дорожные знаки, пешеходов и понимал, как можно перестраиваться.



Сложности

Но почему мы до сих пор сами ездим на машинах, и даже за системами видеонаблюдения должен быть закреплен человек? Одной из ключевых проблем является смысловой разрыв .



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

Человек, смотрящий на картинку, понимает ее семантику.

Компьютер же понимает цвет пикселей, может идентифицировать текстуры и, в конечном итоге, отличить кирпичную стену от ковра и распознать человека на фотографии, но машина все равно может определить, счастлив ли он.

Мы сами не всегда можем это понять.

То есть автоматическое понимание того, скучно ли студентам во время лекции, — это следующий уровень.

Кроме того, наш мозг — уникальная система понимания и обработки картинки, которую мы видим.

Он склонен видеть то, что мы хотим видеть, но как научить компьютер делать то же самое — вопрос открытый.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

Мы очень хорошо умеем обобщать.

По изображению можно догадаться, что мы видим лампу.

Нам не обязательно знать все модификации предмета одного класса, чтобы присвоить ему образец.

Компьютеру это сделать сложнее, потому что визуально разные лампы могут сильно отличаться.

Существует еще ряд сложностей, которые анализ изображений еще не устранил.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса



Зрительное восприятие человека

Наш мозг часто «дорисовывает» картинку и добавляет семантику.

Мы все можем видеть «что-то» или «кого-то» в очертаниях облака.

Зрительная система самообучается.

Европейцу трудно различить лица азиатов, так как он обычно редко встречает их в жизни.

Зрительная система научилась обнаруживать различия в лицах европейцев, и азиаты, которых он мало видел, кажутся ему «имеющими одно и то же лицо».

И наоборот. Был случай с коллегами из Пало-Альто, которые вместе с китайцами разработали алгоритм распознавания лиц.

В результате он чудесным образом нашел азиатов, но не смог увидеть европейцев.

В каждой картинке мы сначала ищем знакомые образы.

Например, мы видим здесь квадраты и круги.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

Глаз способен воспринимать очень большие диапазоны яркости, но делает это хитрым способом.

Зрительная система адаптируется к диапазону значений яркости порядка 10^10. Но в любой момент мы можем распознать небольшую область яркости.

То есть наш глаз выбирает определенную точку, адаптируется к значению яркости в ней и распознает лишь небольшой диапазон вокруг этой точки.

Все, что темнее, кажется черным, все, что светлее, кажется белым.

Но глаз движется очень быстро и мозг дорисовывает картинку, поэтому мы видим хорошо.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

Субъективная яркость — это логарифм физической яркости.

Если мы посмотрим на изменение яркости любого источника и начнем изменять яркость линейно, наш глаз воспримет это как логарифм.



Введение в курс «Анализ изображений и видео».
</p><p>
 Лекции от Яндекса

За зрительное восприятие отвечают два типа компонентов: колбочки и палочки.

Колбочки отвечают за восприятие цвета и могут очень четко воспринимать картинку, но только если она не очень темная.

Это называется фотопическое зрение .

Работает в темноте скотопическое зрение - включаются палочки, которые меньше колбочек и не воспринимают цвета, поэтому картинка получается размытой.

Теги: #Алгоритмы #программирование #Обработка изображений #компьютерное зрение #анализ изображений

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.