Современная поисковая система, качество которой воспринимается как нечто само собой разумеющееся, представляет собой сложный программно-аппаратный комплекс, создателям которого пришлось решить огромное количество практических задач, начиная от большого объема обрабатываемых данных и заканчивая нюансами человеческого восприятия.
результатов поиска.
В ходе второго семестра Техносферы «Современные методы и средства построения информационно-поисковых систем» мы рассказываем об основных методах, используемых при создании поисковых систем.
Некоторые из них являются хорошим примером изобретательности, некоторые показывают, где и как можно использовать современный математический аппарат. Авторы курса — создатели поисковой системы на портале Mail.Ru — делятся собственным опытом разработки систем искусственного интеллекта.
В курсе объясняется, насколько интересно и увлекательно создавать поисковую систему, решать задачи обработки текста на естественном языке, а также какие методы и инструменты используются для решения подобных задач.
Лекция 1. «Введение в информационный поиск» Алексей Воропаев, руководитель группы рекомендаций по поиску Mail.Ru, определяет понятие поиска информации и делает обзор существующих поисковых систем, рассказывает об индексировании и поисковых кластерах.
Лекция 2. «Особенности веб-поиска.
Архитектура поискового робота" В этой лекции вы узнаете об истории поисковых систем, современных основах веб-поиска, предпочтениях пользователей и эмпирической оценке результатов поиска.
Лекцию читает Ян Кисель, руководитель инфраструктурной группы Поиска Mail.Ru. Лекция 3. «Приоритизация краулеров» Дмитрий Соловьев, ведущий разработчик группы ранжирования, рассказывает о поисковых роботах.
Предоставляет обзор сканеров, информацию об анализе кластеров сайтов, экспериментах с квотами, определениях качества индексов и т. д. Лекция 4. «Использование самоорганизующихся карт в поисковой системе» Дмитрий Соловьев решает задачи анализа и визуализации данных, рассказывает о вариантах использования самоорганизующихся карт в поисковой системе, а также проводит семинар по выявлению и анализу сегментов для расстановки приоритетов.
Лекция 5. «Поиск дубликатов документов» Ян Кисель определяет дубликаты, их типы и показывает пример шинлинга: преобразование документов в наборы.
Описаны все шаги по идентификации похожих документов, включая минхеширование (преобразование больших наборов в короткие подписи) и методы масштабирования.
Лекция 6. «Поиск дубликатов документов.
Часть 2" Продолжение предыдущей лекции.
Ян рассказывает о методах удаления привязок страниц, нормализации текста, глобального обнаружения и завершает лекцию информацией о том, что делать дальше с повторяющимся текстом и изображениями.
Лекция 7. «Индексирование и логический поиск» Рассмотрен подход к методам индексирования и сжатия.
Что такое индекс в поиске, какие существуют подходы к быстро пересекающимся спискам, различные варианты сжатия в сети.
Лекцию читает Ян Кисель.
Лекция 8. «Методы обратной индексной оптимизации» Ян продолжает тему индексации.
На этот раз мы поговорим о создании индексного словаря, сборе результатов в большой сети и о том, какие особенности существуют при работе с памятью и написании демонов.
Лекция 9. «Чистка поискового индекса: антиспам» Первая лекция посвящена фильтрации контента.
Эта часть касается методов воздействия на спам в поисковой системе и методов противодействия.
Дмитрий Соловьев показывает методы выявления спам-сайтов и обнаружения спама на основе анализа содержимого страниц.
Лекция 10. «Чистка поискового индекса: антипорно» Вторая часть фильтрации: на этот раз мы боремся с порно.
Задача требует иных подходов, в отличие от методов борьбы со спамом.
Рассмотрены методы фильтрации запросов, веб-страниц и изображений, в том числе методы, основанные на работе сверточной нейронной сети.
Лекция 11. «Микроразметка.
Детектор конца предложения" Свою лекцию прикладной лингвист Игорь Андреев посвятил снипетам (фрагментам текста, используемым в качестве описания ссылки в результатах поиска).
Игорь рассказывает о дизайне результатов поисковых систем, семантической сети, RDF (структуре описания ресурсов), микроразметке и о том, как все это сочетается со сниппетами.
Лекция 12. «Построение сниппетов» Вторая часть разговора о сниппетах: автоматическое резюмирование текста, переход к формированию органических сниппетов, краткое устройство прямой индексации и последняя часть дает оценку качества сниппетов.
Лекция 13. «Исправление опечаток.
Сагестс.
Реформулы" Руководитель группы анализа запросов Евгений Чернов посвятил две лекции исправлению опечаток в поисковых запросах.
Евгений рассказывает о типах ошибок, простом обнаружении опечаток, расстоянии Левенштейна, статистике языковой модели, генерации вариантов замены и различных видах исправлений.
Лекция 14. «Предложения, переформулировки, классификаторы» В заключительной лекции Евгений Чернов рассказывает о поисковых подсказках (предложениях), реформулировках (наборах запросов, имеющих что-то общее с заданным) и целой группе различных классификаторов.
Плейлист со всеми лекциями можно найти на сайте связь .
Напомним, на канале по-прежнему публикуются актуальные лекции и мастер-классы по программированию от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек.
Теги: #Алгоритмы #Разработка сайтов #разработка #mail.ru #Поисковые технологии #Семантика #техносфера #лекции техносферы
-
Ввод Данных Онлайн: Как Мне Найти Работу?
19 Oct, 24 -
Как Я Выгорел На Работе И Как Этого Избежать
19 Oct, 24 -
Будущие Выпуски Firefox
19 Oct, 24 -
It-Квест 4
19 Oct, 24 -
Netboot.me — Всё Скачаем!
19 Oct, 24