Яндекс Научился Распознавать И Объединять Серии Изображений

Яндекс.

Картинки сегодня сделали важный шаг в своем развитии и в развитии поиска изображений.

Результаты поиска больше не будут просто набором картинок по указанным вами словам.

Некоторые изображения теперь могут быть объединены в результаты.

Мы называем это «сериями».



Яндекс научился распознавать и объединять серии изображений

«Серии» — изображения, которые появляются в Интернете вместе и визуально похожи.

За выбор изображений отвечает алгоритм иерархической кластеризации.

Он берет все изображения с конкретной страницы и выбирает группу похожих — тех, которые имеют общий цвет, форму, детали и так далее.

Если на странице есть хотя бы четыре одинаковых (но не одинаковых) картинки, то они образуют Серию.

Читайте под катом, почему нам пришла в голову идея сделать Серии, как мы придумали их дизайн и реализовали алгоритм.

Обычное представление результатов поиска изображений представляет собой страницу, заполненную сеткой миниатюр.

Прокрутив вниз, вы обычно увидите автоматически загружающиеся новые миниатюры изображений.

Но иногда одной или даже двух картинок недостаточно для ответа на вопрос — нужно больше изображений.

И было бы хорошо, если бы они были связаны.

Для чего это? Например, чтобы научиться складывать дракона оригами, вам наверняка захочется просматривать картинку с каждым шагом.

Вам также понадобится несколько изображений, если вы хотите рассмотреть автомобиль под разными углами.

И наверное будет здорово, если это будут картинки из одного обзора.

Чтобы понять, какие еще сценарии могут быть у сериала, мы провели глубинные интервью.

Одна девушка рассказала, что сериал помог бы ей быстро найти три картинки для фоторамки на кухню.

Ей было важно, чтобы все они были пикантными и в одном стиле, ведь у нее есть специальная рамка на три изображения.

Еще была студентка, которая сказала, что инструкции на картинках помогут ей освоить Photoshop. Видеоинструкции слишком сложны для новичка, а вот картинки с пояснениями вполне подойдут. Еще мы поговорили с мужчиной, который рассказал, что совсем недавно искал инструкцию с картинками, как починить протекающий кран.

По нашим данным, для решения подобных задач примерно 13% пользователей используют изображение для поиска страницы, содержащей подробную информацию.

Благодаря количественным опросам мы знаем, что 70% пользователей периодически нуждаются в поиске инструкций, которые должны иметь иллюстрации, а у 20% такая необходимость возникает каждую неделю.

Эту статистику подтверждают и запросы — 9% всех поисковых запросов по картинкам Яндекса связаны с поиском инструкций.

И они на совершенно разные темы.



Яндекс научился распознавать и объединять серии изображений

В процессе обсуждения этой проблемы мы придумали проект «Сериал».

Мы стали думать, как подбирать изображения, чтобы получить не только актуальный, но и красивый ответ, который дополнил бы показ картинок.

Благодаря интервью с приглашенными пользователями, UX-тестированию, множеству обсуждений внутри команды и бета-данных во внутренней сети Яндекса мы выстроили более целостное понимание этой возможности и сформулировали некоторые требования.

Например, изображения должны быть с одной страницы, чтобы пользователь мог перейти на нее и узнать больше — посмотреть весь отчет, прочитать пояснения, перейти в другие разделы сайта.

Это улучшает сценарий навигации, в котором пользователь ищет сайт по изображению.

Серия особенно полезна при выделении одного объекта, этапов одного мастер-класса или фотографий, выполненных в одном стиле (конкретная фотосессия, одежда из одной коллекции и т. д.).

Но алгоритм делает это только для страниц без агрессивной рекламы и вирусов.

В ходе глубинных интервью и UX-тестирования мы столкнулись с тем, что пользователи очень негативно реагируют на чрезмерную рекламу и всплывающие окна.

Поэтому мы решили исключить такие страницы из кандидатов на серийные.



Как технически устроены серии

Давайте сгруппируем картинки в серию похожих на страницах, на которых они появляются вместе.

То есть, если на странице www.example.com фотографии встреч www.example.com/1.jpg , www.example.com/2.jpg , www.example.com/3.jpg , www.example.com/4.jpg , Попробуем объединить их в серию.

Серия – это группа картинок, визуально похожих друг на друга в паре.


 Мы хотим сгруппировать эти изображения по визуальному сходству.

То есть найти подгруппу картинок, достаточно похожих друг на друга.

Мы будем кластеризоваться, используя жадный алгоритм иерархической кластеризации.

По-английски этот алгоритм называется полной кластеризацией связей с использованием алгоритма nn-цепи.

Для достижения успеха нам понадобится метрика сходства картинок, кластеризация с помощью которой давала бы кластер-группы с нужными нам свойствами.


 Что это за свойства?

  1. Одни и те же объекты или сцены, снятые под разными углами, должны находиться в одном кластере;
  2. Одни и те же объекты или сцены, выполненные на изображении разными цветами, должны находиться в одном кластере;
  3. Фотографии с одной фотосессии, имеющие достаточно общих цветов и деталей, должны находиться в одном кластере.

  4. В кластере должны быть картинки примерно одинакового размера и т. д.
Чтобы добиться чего-то подобного, мы выбрали три типа дескрипторов: Описания можно найти, например, в стандарте mpeg-7. У нас есть свои быстрые и эффективные внедрения.

На основе этих дескрипторов рассчитывается визуальное сходство, как максимум визуального сходства для отдельных дескрипторов.

Это позволяет удовлетворить первые три желания.

Для учета размеров из визуального сходства вычитаем соотношение площадей картинок (макс/мин).

На основе этой метрики мы выполняем кластеризацию.



Дизайн

В процессе работы мы поняли, что серийные изображения в результатах поиска должны выглядеть единым блоком — это новое представление ответа Яндекса.

Самым важным в дизайне было выделить серию фотографий.

С момента начала работы над проектом мы перепробовали около десятка различных вариантов дизайна.

Три из них были протестированы как на внешних пользователях, так и на наших коллегах.

Мы увидели, что пользователям понравился по внешнему виду не один дизайн.



Яндекс научился распознавать и объединять серии изображений

Но им понятнее другая идея, и они больше с ней взаимодействуют.

Яндекс научился распознавать и объединять серии изображений

В финальной версии мы учли лучшее из обоих вариантов.



Яндекс научился распознавать и объединять серии изображений

Мы также заметили, что важно показать людям, когда сериал начался и когда закончился.

Так появилась финальная версия с информацией и блоком обмена.



Где сериалы могут вам помочь

Серия будет очень удобна для тех людей, которые ищут пошаговые инструкции, в которых картинки важнее текста: как сделать дракона оригами, как нарисовать кота, мастер-класс по декупажу, как переделать или найти упражнения для трапеции.

Они облегчают поиск схожих по стилю изображений — картин одного художника или подборки фотографий из одной фотосессии.

Они также помогут вам рассмотреть автомобиль, товар или достопримечательность под разными углами.

Теги: #Яндекс #Обработка изображений #Технологии поиска #поиск по изображениям #поиск по картинкам

Вместе с данным постом часто просматривают: