Важная цель исследователей компьютерного зрения — создать автоматизированную систему, которая сможет сравниться или превзойти способность человеческого мозга распознавать лица.
Результаты психофизических исследований процесса распознавания лиц предоставляют специалистам по компьютерному зрению ценные факты, которые помогут усовершенствовать системы искусственного интеллекта.
Традиционно предлагаю сокращенный перевод, полный текст доступен в оригинальный .
ВВЕДЕНИЕ
Несмотря на значительные усилия по разработке алгоритмов распознавания лиц, до сих пор не создана система, способная работать без искусственных ограничений, учитывая все возможные вариации параметров изображения, таких как шум сенсора, расстояние до объекта и уровень освещенности.Единственная система, которая хорошо справляется со своей задачей, — это человеческое зрение.
Поэтому полезно изучить стратегии, которые использует эта биологическая система, и попытаться использовать их при разработке искусственных алгоритмов.
Мы предлагаем 19 важных результатов исследований, которые не претендуют на звание полной теории распознавания лиц, но дают важные подсказки разработчикам систем компьютерного зрения.
Эти 19 результатов собраны из различных публикаций многих научных групп, а в оригинальной статье есть ссылки на эти публикации.
РАСПОЗНАВАНИЕ КАК ФУНКЦИЯ ПРОСТРАНСТВЕННОГО РАЗРЕШЕНИЯ
Результат 1: Люди способны узнавать знакомые лица на изображениях с очень низким разрешением.
Прогресс в разработке видеосенсоров высокого разрешения побуждает использовать все больше мелких деталей для распознавания лиц в системах машинного зрения.
Примером такого подхода является распознавание радужной оболочки глаза.
Очевидно, что такие алгоритмы не работают при отсутствии изображений высокой четкости.
Эта проблема особенно актуальна, когда требуется распознавание лиц на значительном расстоянии.
Обратимся к человеческому видению.
Как точность распознавания лиц зависит от разрешения изображения? Оказывается, люди сохраняют точность распознавания знакомых лиц на изображениях, сглаженных до размера блоков 16х16. Точность распознавания более 50% сохраняется при сглаживании до эквивалентного размера 7x10 пикселей (см.
рис.
1) и становится практически равной максимально возможному значению при разрешении 19x27 пикселей.
Рис.
1 Люди способны узнавать более половины знакомых лиц при разрешении, показанном на этом рисунке.
На фото: 1 — Майкл Джордан, 2 — Вуди Аллен, 3 — Голди Хоун, 4 — Билл Клинтон, 5 — Том Хэнкс, 6 — Саддам Хусейн, 7 — Луи Пресли, 8 — Джей Лено, 9 — Дастин Хоффман, 10 — Принц Чарльз, 11 – Шер, 12 – Ричард Никсон.
Результат 2: Способность игнорировать ухудшение изображения увеличивается по мере знакомства.
Возможность компенсировать ухудшение разрешения изображения во многом зависит от знания предмета.
Был продемонстрирован низкий процент распознавания незнакомых лиц на двух разных фотографиях одного и того же предмета и, с другой стороны, высокий процент распознавания изображений коллег по работе при наблюдении изображений с камер видеонаблюдения низкого качества.
При этом фигура и походка оказались существенно менее информативными, чем изображение лиц, несмотря на их крайне низкое разрешение.
Об этом свидетельствует тот факт, что при закрытии фигуры, но оставлении лица точность распознавания несколько падает, а при обратном действии точность падает существенно (см.
рис.
2).
Рис.
2 кадра из видеозаписей, использованных в исследовании.
(а) исходное изображение, (б) тело объекта закрыто, (в) лицо закрыто.
Результат 3: Высокочастотная информация сама по себе не гарантирует высокого качества распознавания.
Традиционный подход к распознаванию во многом основан на использовании алгоритмов обнаружения границ.
Контур считается инвариантным при различных условиях освещения.
В контексте биологического распознавания лиц для распознавания лиц обычно достаточно контурных (векторных) изображений.
Карандашные наброски и карикатуры часто легко узнаваемы.
Означает ли это, что высокочастотные пространственные паттерны имеют решающее значение или даже достаточны для распознавания лиц? Результаты исследований противоречат этому.
Конкретно для «векторных» рисунков показано, что изображения, содержащие только контуры, распознаются с трудом (правильное распознавание у 47% векторных рисунков против 90% исходных фотографий) – см.
рис.
3.
Рис.
3 Изображения, содержащие только контуры, трудно распознать.
ПРИРОДА ОБРАБОТКИ: ФРАГМЕНТАРНАЯ ИЛИ ЦЕЛАЯ?
Результат 4: Черты лица обрабатываются как единое целое.
Можно ли обрабатывать черты лица (глаза, нос, рот, брови и т. д.) отдельно от всего изображения? Лицо часто можно идентифицировать по очень небольшой части, например, по глазам или бровям.
Но если верхняя половина одного лица совмещена с нижней половиной другого лица, очень сложно узнать, кому принадлежали эти части (см.
Рисунок 4).
Целостный контекст, по-видимому, влияет на то, как обрабатываются отдельные черты лица.
Это исследование показало, что отдельных черт лица может быть достаточно для распознавания, но в контексте всего лица геометрические отношения между данной чертой лица и остальной частью лица доминируют в распознавании.
Рис.
4 Верхняя часть лица принадлежит Вуди Аллену, а нижняя – Опре Уинфри.
При совмещении очень сложно угадать, кому принадлежат эти самые части лица.
Результат 5: Брови — одна из самых важных черт лица для узнавания.
Чаще всего результаты экспериментов показывают, что наиболее важными чертами лица для распознавания являются (в порядке убывания) глаза, рот и нос.
Однако недавние эксперименты с цифровым стиранием бровей показали, что эксперты по распознаванию лиц явно недооценивают брови.
В частности, процент распознанных лиц со стертыми бровями был значительно ниже процента распознавания оригинальных портретов.
Как это можно объяснить? Во-первых, брови очень важны для передачи эмоций.
Возможно, биологическая система восприятия лиц изначально настроена так, чтобы придавать этим чертам лица повышенное значение.
Кроме того, брови — очень стабильный элемент, устойчивый к ухудшению разрешения изображения.
Брови расположены на выступающей части черепа, а значит, менее подвержены искажению от теней.
Рис.
5 примеров изображений, чтобы проверить значимость бровей для распознавания лиц.
Результат 6: значимые взаимосвязи конфигурации не зависят от размеров ширины/высоты.
Многие системы распознавания лиц используют точные измерения таких атрибутов, как расстояние между глазами, ширина рта и длина носа.
Однако в биологической системе эти измерения не кажутся очень важными.
Это доказывают результаты исследований процента распознавания лиц по искаженным изображениям.
Например, изображения лиц можно сильно искажать по ширине (рис.
6) без потери качества распознавания.
Очевидно, что искажения совершенно запутывают алгоритмы, основанные на измерении абсолютных размеров и соотношений размеров по осям x и y. При таких искажениях соотношения размеров по оси остаются неизменными.
Возможно, биологическая система кодирует такие отношения, чтобы успешно распознавать лица при повороте шеи.
Рис.
6 Даже сильные искажения по ширине (здесь ширина составляла 25% от оригинала) не мешают распознаванию лиц знаменитостей.
ПРИРОДА ИСПОЛЬЗУЕМЫХ КЛЮЧЕЙ: ПИГМЕНТАЦИЯ, ФОРМА И ДВИЖЕНИЕ
Результат 7: Формы лица закодированы слегка карикатурно.
Интуитивно, чтобы успешно распознавать лица, зрительная система человека должна кодировать лица, которые она видит, именно так, как они выглядят. Ошибки в сохраненных изображениях лиц, очевидно, ослабляют потенциальное сопоставление новых изображений со старыми.
Однако эксперименты показали, что некоторые искажения истины играют положительную роль в распознавании лиц.
А именно, карикатурные изображения лиц обеспечивают качество распознавания, равное или превосходящее уровень распознавания неискаженных лиц.
Карикатурные изображения могут преувеличивать отдельные отклонения формы или сочетать отклонения формы и пигментации (рис.
7).
В обоих случаях испытуемые демонстрировали небольшое, но стабильное превосходство в уровне распознавания не только лиц, но и других объектов.
Эти результаты можно интерпретировать таким образом.
Есть пространство нормальных изображений («пространство лиц»).
Поскольку карикатуры искажают отдельные черты лица, повышенную роль в распознавании играют отдельные отклонения лица от нормы.
Это дает разработчикам алгоритмов интересную стратегию.
Рис.
7 Пример карикатуризации изображения.
(A) Женское лицо в среднем по численности населения.
(Б) Истинный образ конкретного человека.
(В) Лицо, искусственно искаженное по форме и пигментации, преувеличивает различия между конкретным лицом и среднестатистическим.
Такие искаженные изображения показали более высокий уровень распознавания, чем настоящие изображения.
Результат 8: Длительное наблюдение за лицом может произвести эффекты высокого уровня, указывающие на возможность прототипического кодирования.
Последствия (оптические иллюзии), возникающие после длительного созерцания «адаптивного» стимула (изображения), породили множество гипотез о нейронной обработке простых зрительных атрибутов, таких как движение, ориентация и цвет. Недавние исследования показали, что адаптация может оказывать мощное последействие на гораздо более сложные стимулы, такие как изображения лиц.
Наличие последействия после длительного созерцания изображения лица указывает на то, что лица кодируются на основе нормализации и контраста.
Последействие может выражаться просто в восприятии лица, искаженного в противоположную сторону по отношению к раздражителю, а может порождать сложный «антилицевой» эффект конкретной личности без явных искажений (рис.
8).
Это говорит о том, что существует множество измерений, по которым могут настраиваться нейронные популяции.
Более того, это может означать, что эти сложные последствия являются результатом адаптаций в высших зрительных отделах коры головного мозга.
Рис.
8 Лиц и связанные с ними «антилица» в схематическом пространстве лиц.
Длительный взгляд на лицо, отмеченное зеленым кружком, приведет к тому, что центральное лицо будет ошибочно идентифицировано как лицо человека, отмеченного красным кружком на оси, на которой расположен исходный стимул (зеленый).
Результат 9: Свойства пигментации не менее важны, чем свойства формы.
Лица могут различаться по форме и способу отражения света, назовем это пигментацией.
Исследование было направлено на то, чтобы выяснить, что важнее для распознавания лиц: форма или пигментация.
Были созданы наборы лиц, отличавшиеся друг от друга только формой или только пигментацией — например, лазерные сканы лиц, искусственные модели лиц или морфы фотографий лиц.
Оказалось, что процент распознавания не зависел от способа модификации, а это значит, что оба класса стимулов (графические свойства формы или сочетание цвета, отражательная способность и т. д.) одинаково важны для распознавания лиц.
Следствием этого является то, что учет свойств пигментации в системах искусственного распознавания лиц должен улучшить качество распознавания.
Рис.
9 Лица в нижнем ряду — это лазерные сканы лиц, которые различаются как по форме, так и по пигментации.
Лица в среднем ряду отличаются только пигментацией, но не формой.
Лица в верхнем ряду отличаются формой, но не пигментацией.
Результат 10: Свойства цвета играют важную роль в ухудшении свойств формы.
Яркостная структура изображений лиц, конечно, очень важна для распознавания.
Использование только яркости (т.е.
монохромных изображений) вполне достаточно для адекватного распознавания лиц.
Однако исследования показали, что идея о том, что цветовая информация не важна для распознавания, несовместима с наблюдаемыми фактами.
Когда свойства формы неточны (например, когда разрешение уменьшено), мозг использует информацию о цвете для успешного распознавания.
В таких случаях скорость распознавания значительно выше, чем у монохромных изображений.
Одной из гипотез относительно того, как используется цвет, является диагностическая роль информации о цвете: например, цвет кожи или волос может подсказать нам правильный ответ. Вторая возможность заключается в том, что использование цвета улучшает возможности низкоуровневой обработки изображений, например сегментации областей изображения.
Рис.
10 примеров того, как цвет может облегчить задачи обработки изображений низкого уровня.
(А) Распределение цвета (справа изображения) позволяет более точно определить границы областей, а значит, и свойства формы, чем распределение яркости (монохромные изображения в центре).
(B, C) Обратите внимание, что форма черепа более четко определяется распределением цвета, чем монохромным изображением.
Результат 11: Инверсия (негатив) изображения существенно снижает процент распознавания лица, возможно, из-за искажения свойств пигментации.
Любой, кто занимался фотографией, знает, как сложно распознать на негативной пленке даже очень знакомые лица.
Это ясно указывает на то, что хотя вся информация о форме остается неизменной, сильное и неестественное искажение свойств пигментации затрудняет распознавание, следовательно, человеческий мозг активно использует свойства пигментации для распознавания лиц.
Рис.
11 В негативе фигурируют несколько известных певцов, но попробуйте их узнать (съёмка во время записи песни We Are the World).
Вывод 12. Изменения в освещении влияют на обобщения.
Некоторые модели компьютерного распознавания требуют, чтобы лицо рассматривалось при различных условиях освещения для надежного представления (памяти).
Однако люди способны обобщать изображения лиц в совершенно разных условиях освещения.
В эксперименте испытуемым показывали модель лица, полученную методом лазерного сканирования, освещенную с одной стороны.
Затем им показали модель, освещенную совершенно с другой стороны, и спросили, был ли это тот же человек.
Процент распознавания был существенно выше, чем при простом угадывании, хотя и ниже, чем при освещении лиц с одной стороны.
Рис.
12 То же лицо, освещенное слева и справа.
Результат 13: Генерализация направления взгляда происходит посредством временных ассоциаций.
Распознавание знакомых лиц под разными углами обзора — очень сложная вычислительная задача.
Человеческий мозг решает эту задачу легко.
Несмотря на то, что изображения одного и того же лица под разными углами гораздо сильнее отличаются, чем изображения разных лиц, сделанные под одним и тем же углом, люди способны правильно ассоциировать изображения одних и тех же лиц.
Выдвигается гипотеза, что временные ассоциации являются тем «клеем», который связывает изображения лиц под разными углами в единое целое.
В ходе экспериментов испытуемым показывали видеоролики, на которых лицо поворачивалось во фронтальной плоскости и при этом трансформировалось из одного лица в другое.
Этот стимул значительно затруднял способность испытуемых правильно идентифицировать лица.
Это говорит о том, что просмотр последовательности изображений вызывает временные ассоциации.
Рис.
13 Вращение и одновременный морфинг с лица а1 на лицо а2 и снова на лицо а1.
Результат 14: Движение лица улучшает распознавание.
Движение лица улучшает распознавание при определенных условиях.
Жесткое движение, например вращение камеры вокруг неподвижной головы, улучшает распознавание знакомых лиц, но не улучшает память.
Но большую роль играют нежесткие движения, такие как эмоциональные изменения выражения лица или изменения в разговоре.
Это означает, что динамические свойства лиц, проявляемые при нежестких движениях, помогают мозгу более точно определять структуру лица и улучшать качество распознавания.
Рис.
14 Морфированию подвергались движения при отражении эмоций и речи, что показано стрелками.
Субъекты допускали ошибки при идентификации исходных лиц, например, когда движение губ «Стефана» совпадало с движением губ «Лестера».
РАЗРАБОТКА ВИЗУАЛЬНОЙ СИСТЕМЫ
Результат 15: Зрительная система начинает распознавание с рудиментарных предпочтений в отношении схематических изображений лиц.
Существуют ли определенные первоначальные предпочтения зрительной системы человека? Ответ на этот вопрос должен помочь исследователю компьютерного зрения сделать выбор между двумя альтернативами: 1) запрограммировать определенные структуры лицевого рисунка в систему распознавания лиц; или 2) формировать неявные шаблоны в процессе обучения, независимо от того, являются ли эти шаблоны специфичными для людей или для каких-либо объектов.
Новорожденные избирательно фокусируют свой взгляд на лицах в первые часы после рождения.
Узор может выглядеть как три точки в овале, символизирующие глаза и рот (рис.
15а).
Перевернутое изображение, на котором невозможно отобразить лицо (перевернутая триада точек в овале лица), не привлекает внимание новорожденных.
Более поздние исследования показали, что новорожденные предпочитают изображения, взвешенные по верху, изображениям, взвешенным по нижней части (рис.
15b).
Поэтому неясно, является ли это общим свойством зрительной коры или специфичным для распознавания лиц.
Простейший шаблон из трех точек можно использовать в системах поиска и распознавания лиц на начальном этапе.
Рис.
15 (А) Новорожденные чаще концентрируют взгляд на верхнем шаблоне, чем на нижнем.
(Б) Новорожденные предпочитают узоры с преобладанием элементов вверху.
Вывод 16. Зрительная система развивается от частичной стратегии к целостной стратегии в течение первых лет жизни.
Обычные взрослые необычайно плохо распознают изображения перевернутых лиц, но без труда распознают другие перевернутые объекты, например дома.
Исследования показали, что для развития этого свойства требуется несколько лет. У шестилетних детей не наблюдается снижения процента распознавания лиц по перевернутым изображениям; у восьмилетних детей эта способность уже несколько снижена; Десятилетние дети в этом отношении уже ведут себя как взрослые.
В ходе экспериментов манипулировали расстояниями между отдельными элементами изображений лиц и заменяли отдельные элементы (например, глаза) с разных лиц.
Результаты показали, что стратегия распознавания лиц развивается в первые годы жизни: от фрагментарной стратегии, основанной на отдельных свойствах, к целостной системе, использующей конфигурационную информацию.
Рис.
16 Шестилетние дети одинаково плохо распознают как вертикальные, так и перевернутые лица.
С возрастом распознавание прямых лиц значительно улучшается, а перевернутых — нет. По горизонтали – возраст; по вертикали - процент правильного распознавания.
Слева — данные распознавания лиц, справа — данные распознавания дома.
НЕЙРОННЫЕ ОСНОВЫ
Открытие 17. В зрительной системе человека, вероятно, развиваются отдельные области коры головного мозга для распознавания лиц.
Исследования показали, что существует область коры головного мозга, дающая сильную избирательную реакцию на изображения лиц человека и животных и слабую реакцию на изображения произвольных предметов и даже схематические изображения лиц (рис.
17).
Это может подсказать разработчикам систем компьютерного зрения рамки возможных механизмов генерализации и избирательности, характерных для объективно совершенных биологических систем.
Рис.
17 В верхнем левом углу показано расположение FFA (веретенообразной области лица) в правом полушарии мозга.
Показаны примеры зрительных стимулов и реакций на них в области СФА.
Фотографии человеческого лица и кошки вызвали сильную реакцию, тогда как схематическое изображение лица и случайного объекта вызвало слабую реакцию.
Результат 18: Задержка ответа нижневисочной коры головного мозга на лица составляет 120 мс, что, вероятно, указывает в первую очередь на упреждающую обработку.
Тесты на реакцию предполагают значительную задержку двигательного компонента (например, испытуемый должен нажать кнопку, если видит лицо).
Используя маркеры нейронного распознавания, сложная задача, такая как распознавание присутствия животного в естественной обстановке, занимает 50 мс.
Некоторые клетки нижневисочной (ИТ) коры специфичны для лица.
Латентность ответа этих клеток находится в диапазоне 80-160 мс.
Это может означать, что с вычислительной точки зрения обработка изображения до ИТ-коры выполняется за один прямой проход, без обратной связи или итерации.
Обработка изображений с шумами может занять больше времени.
Рис.
18 Пример реакции клеток IT-коры обезьяны на различные стимулирующие изображения лиц.
Реакция носит систематический характер для разной степени деградации изображений приматов, а также для человеческого лица.
Низкая реакция на изображение руки означает, что клетка не отвечает за изображение других частей тела, а специфична для лица.
Вывод 19. Идентификация лиц и распознавание выражений лиц, скорее всего, выполняются разными системами.
Можно ли извлечь информацию о выражении лица независимо от идентификации лица или это связано? Поведенческие исследования, электрофизиологические исследования на животных и визуализация нервной активности показывают, что разделение этих двух задач происходит на ранних этапах пути обработки лица, и существуют отдельные области мозга, ответственные за идентификацию и эмоции.
Теги: #искусственный интеллект #распознавание лиц #распознавание образов #компьютерное зрение
-
Javascript: Хорошие Новости
19 Oct, 24 -
Youtrack Теперь С Эмоциями
19 Oct, 24 -
Выпуск Imagecms 4.3
19 Oct, 24