Сегодня мы поговорим о моделировании реальности как способе мышления, восприятия информации и анализа данных.
Давайте работать вместе, чтобы заново изобрести и улучшить модели, которые поисковые системы используют сегодня: в показателях качества поиска, при создании факторов ранжирования и даже при создании новых интернет-сервисов.
Этому посвящено лекция Федора Романенко.
Однако прежде чем перейти к основной теме нашей лекции, стоит рассмотреть некоторые философские вопросы, связанные с моделированием.
Человек мыслит моделями, с их помощью воспринимает и понимает окружающий мир.
Чтобы проиллюстрировать это, рассмотрим простую модель мира, в котором существуют только хорошие и плохие парни.
Плохие люди всегда лгут, а хорошие всегда говорят правду.
Если человек однажды нам солгал, то мы будем считать его плохим парнем и не будем ему доверять.
Но если этот злодей вдруг начнет говорить правду, мы можем испытать когнитивный диссонанс: несоответствие между тем, что мы наблюдаем, и нашей моделью.
На это можно реагировать по-разному.
Некоторые, например, могут отрицать то, что видят, и оставаться в рамках своей модели.
Однако этот подход очень далек от научного.
Правильнее было бы отказаться от принятой модели или попытаться ее расширить.
Научный метод
Самый успешный подход к получению знаний заключается в следующем: у нас есть некоторый опыт (эмпирические знания), на основе которого мы создаем определенные теории и модели.Все гипотезы, которые мы можем придумать, изначально равноценны.
Они могут объяснить имеющийся у нас опыт или его часть, а также предсказать новый опыт. Модель не обязательно должна быть точной, она может быть приблизительной, главное, чтобы она помогала нам что-то понять, объяснить или предсказать.
Вообще говорить о правильности или неправильности модели не совсем корректно; модель необходимо воспринимать с точки зрения ее полезности.
Например, после изобретения теории относительности стало ясно, что механика Ньютона не совсем верна.
Но в то же время модель, которую он представляет, очень полезна; это помогает объяснить и предсказать многие вещи.
Очень полезный для ученых принцип известен как бритва Оккама.
Это означает, что нет необходимости вводить сущности в модель без необходимости.
Если вы можете создать более простую модель с такой же полезностью, то лучше использовать ее.
Разработка поиска и анализ данных – это также своего рода научная работа в области выявления закономерностей высокого уровня.
У нас есть огромные объемы данных, журналов действий пользователей, на основе которых мы можем создавать модели, прогнозировать действия и на основе этого делать хорошие сервисы.
В то же время здесь гораздо больше возможностей для моделирования, чем, например, в физике, где новые модели появляются крайне редко.
В поисках каждый день можно придумывать новые модели, и каждая из них будет в чем-то полезна.
Рейтинг страницы
Например, давайте поговорим о модели PageRank, которая рассчитывается на основе графа веб-страниц и веб-ссылок.Интернет можно представить в виде графа, вершинами которого являются страницы, а ребрами — ссылки.
Страницы могут быть важными и полезными, а могут быть результатом автоматического создания и не нести вообще никакого значения или ценности для большинства пользователей.
Наша задача — вычислить определенный авторитет страницы, определить, какова вероятность того, что нам вообще будет интересно с ней иметь дело.
На основе этого показателя мы сможем выбирать страницы для результатов поиска и ранжировать их.
Существует очень простой классический алгоритм PageRank, изобретенный Google. В качестве вдохновения была использована диаграмма научных работ, потому что.
Каждая научная работа содержит ссылки на использованную литературу и соответствующие публикации.
При этом чем больше ссылок на ту или иную работу, тем более авторитетной она считается в научном мире.
Соответственно, модель достаточно проста; это так называемая модель случайного блуждающего.
Он содержит веб-страницы разной популярности, между которыми существуют связи в виде ссылок.
Пользователь проходит по этим страницам и с некоторой вероятностью нажимает на какую-то исходящую ссылку.
Допустим, таких пользователей у нас много, они запускаются со случайной страницы.
И нам нужно посчитать вероятность того, что пользователь окажется на определенной странице.
Все это рассчитывается следующим образом.
Предположим, у нас N страниц, в начальный момент пользователь попадает на случайную страницу с вероятностью 1/N. Вероятность того, что он устанет читать, мы принимаем за 15 процентов; следовательно, с 85-процентной вероятностью пользователь продолжит серфинг и с равной вероятностью перейдет по случайной исходящей ссылке.
Когда пользователю все надоедает, он начинает заново со случайной страницы.
Функция на графике вычисляется итеративно.
На определенной итерации значение PR из определенного узла на итерации t. Мы берем этот PageRank и равномерно распределяем его по исходящим ссылкам; на пограничной ссылке появляется значение, называемое дельта PageRank – dPR. Утверждается, что если выполнить достаточное количество итераций, веса в узлах практически перестанут меняться.
Интересно, что в реальном веб-графе такая простая модель демонстрирует весьма интересные свойства.
Например, страница с большим количеством ссылок будет иметь высокий PR, поскольку состоит из дельт исходящих ссылок.
И страница, на которую она ссылается, тоже будет иметь достаточно высокий PR. Эта модель может прогнозировать посещаемость страниц, хотя у нее также есть проблемы из-за того, что Интернет был другим в то время, когда он был изобретен.
Страниц было немного, и все ссылки добавлялись вручную.
Сейчас в базе Яндекса только в Рунете около 20 миллиардов страниц, и полезных среди них не очень много.
И главная проблема алгоритма в его классическом виде заключается в том, что можно сделать спам-сайт и генерировать на нем страницы, единственная цель которых — иметь ссылки на конкретную страницу, на которой нужно поднять пиар.
Кроме того, классический PR отдает предпочтение более старым страницам.
Досмотрев лекцию до конца, вы узнаете, как бороться с проблемами классического PageRank, как измерять и улучшать качество поиска, что такое модели pfound и Widepfound, а также зачем в поиске необходимо машинное обучение.
Теги: #Алгоритмы #Поисковые технологии #поиск #pagerank
-
Леонид Сиротин: «Геймдизайнеров Нет»
19 Oct, 24 -
Он Потерял Всё!
19 Oct, 24 -
Автомобили Форд – Горячие Точки На Колесах
19 Oct, 24 -
Платный Веб 2.0 Уже Реальность
19 Oct, 24