Лекции Техносферы. 2-Й Семестр. Поиск Информации (Весна 2016)

Современная поисковая система, качество которой воспринимается как нечто само собой разумеющееся, представляет собой сложный программно-аппаратный комплекс, создателям которого пришлось решить огромное количество практических задач, начиная от большого объема обрабатываемых данных и заканчивая нюансами человеческого восприятия.

результатов поиска.

В ходе второго семестра Техносферы «Современные методы и средства построения информационно-поисковых систем» мы рассказываем об основных методах, используемых при создании поисковых систем.

Некоторые из них являются хорошим примером изобретательности, некоторые показывают, где и как можно использовать современный математический аппарат. Авторы курса — создатели поисковой системы на портале Mail.Ru — делятся собственным опытом разработки систем искусственного интеллекта.

В курсе объясняется, насколько интересно и увлекательно создавать поисковую систему, решать задачи обработки текста на естественном языке, а также какие методы и инструменты используются для решения подобных задач.

Лекция 1. «Введение в информационный поиск» Алексей Воропаев, руководитель группы рекомендаций по поиску Mail.Ru, определяет понятие поиска информации и делает обзор существующих поисковых систем, рассказывает об индексировании и поисковых кластерах.

Лекция 2. «Особенности веб-поиска.

Архитектура поискового робота" В этой лекции вы узнаете об истории поисковых систем, современных основах веб-поиска, предпочтениях пользователей и эмпирической оценке результатов поиска.

Лекцию читает Ян Кисель, руководитель инфраструктурной группы Поиска Mail.Ru. Лекция 3. «Приоритизация краулеров» Дмитрий Соловьев, ведущий разработчик группы ранжирования, рассказывает о поисковых роботах.

Предоставляет обзор сканеров, информацию об анализе кластеров сайтов, экспериментах с квотами, определениях качества индексов и т. д. Лекция 4. «Использование самоорганизующихся карт в поисковой системе» Дмитрий Соловьев решает задачи анализа и визуализации данных, рассказывает о вариантах использования самоорганизующихся карт в поисковой системе, а также проводит семинар по выявлению и анализу сегментов для расстановки приоритетов.

Лекция 5. «Поиск дубликатов документов» Ян Кисель определяет дубликаты, их типы и показывает пример шинлинга: преобразование документов в наборы.

Описаны все шаги по идентификации похожих документов, включая минхеширование (преобразование больших наборов в короткие подписи) и методы масштабирования.

Лекция 6. «Поиск дубликатов документов.

Часть 2" Продолжение предыдущей лекции.

Ян рассказывает о методах удаления привязок страниц, нормализации текста, глобального обнаружения и завершает лекцию информацией о том, что делать дальше с повторяющимся текстом и изображениями.

Лекция 7. «Индексирование и логический поиск» Рассмотрен подход к методам индексирования и сжатия.

Что такое индекс в поиске, какие существуют подходы к быстро пересекающимся спискам, различные варианты сжатия в сети.

Лекцию читает Ян Кисель.

Лекция 8. «Методы обратной индексной оптимизации» Ян продолжает тему индексации.

На этот раз мы поговорим о создании индексного словаря, сборе результатов в большой сети и о том, какие особенности существуют при работе с памятью и написании демонов.

Лекция 9. «Чистка поискового индекса: антиспам» Первая лекция посвящена фильтрации контента.

Эта часть касается методов воздействия на спам в поисковой системе и методов противодействия.

Дмитрий Соловьев показывает методы выявления спам-сайтов и обнаружения спама на основе анализа содержимого страниц.

Лекция 10. «Чистка поискового индекса: антипорно» Вторая часть фильтрации: на этот раз мы боремся с порно.

Задача требует иных подходов, в отличие от методов борьбы со спамом.

Рассмотрены методы фильтрации запросов, веб-страниц и изображений, в том числе методы, основанные на работе сверточной нейронной сети.

Лекция 11. «Микроразметка.

Детектор конца предложения" Свою лекцию прикладной лингвист Игорь Андреев посвятил снипетам (фрагментам текста, используемым в качестве описания ссылки в результатах поиска).

Игорь рассказывает о дизайне результатов поисковых систем, семантической сети, RDF (структуре описания ресурсов), микроразметке и о том, как все это сочетается со сниппетами.

Лекция 12. «Построение сниппетов» Вторая часть разговора о сниппетах: автоматическое резюмирование текста, переход к формированию органических сниппетов, краткое устройство прямой индексации и последняя часть дает оценку качества сниппетов.

Лекция 13. «Исправление опечаток.

Сагестс.

Реформулы" Руководитель группы анализа запросов Евгений Чернов посвятил две лекции исправлению опечаток в поисковых запросах.

Евгений рассказывает о типах ошибок, простом обнаружении опечаток, расстоянии Левенштейна, статистике языковой модели, генерации вариантов замены и различных видах исправлений.

Лекция 14. «Предложения, переформулировки, классификаторы» В заключительной лекции Евгений Чернов рассказывает о поисковых подсказках (предложениях), реформулировках (наборах запросов, имеющих что-то общее с заданным) и целой группе различных классификаторов.

Плейлист со всеми лекциями можно найти на сайте связь .

Напомним, на канале по-прежнему публикуются актуальные лекции и мастер-классы по программированию от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек.

Технострим .

Теги: #Алгоритмы #Разработка сайтов #разработка #mail.ru #Поисковые технологии #Семантика #техносфера #лекции техносферы

Вместе с данным постом часто просматривают: