Проиндексировано около 95% текста в 25 миллиардах документов.
Google , составленный на основе небольшого словаря из десяти тысяч слов.
Это означает, что практически любой поисковый запрос вернет миллионы документов.
Таким образом, расчет релевантности документа является нетривиальной математической задачей.
Для этого используется комбинация сложных математических методов.
Кроме того, веб-контент постоянно меняется, поэтому показатель релевантности необходимо постоянно пересчитывать.
Алгоритмы PageRank занимают центральное место в системе ранжирования Google. Все мы знаем, что конечным результатом PageRank является некий показатель «важности» PR-страницы, который принимает значения от PR0 до PR10 и рассчитывается путем анализа входящих ссылок.
Их количество и качество говорят о важности этой страницы для интернет-сообщества.
Уровень PR, который мы видим, — это сильно округленная величина, и точная цифра известна только программистам Google. Показатель PR изменяется в логарифмическом масштабе, то есть значение PR5 на порядок превышает PR4. Какие формулы используются для расчета PR? Это обсуждается в подробная статья на сайте Американского математического общества.
Вот как работает PageRank. Предположим, что на странице Пиджей опубликовано жж ссылки.
Если одна из этих ссылок ведет на страницу Пи , то Pj передаст 1/ж его страница «важности» Пи (примерно такой же алгоритм используется для передачи кармы на Хабр).
Уровень важности (т. е.
PR) страницы.
Пи представляет собой сумму всех таких значений по всем входящим ссылкам.
Если мы представим набор страниц, ссылающихся на страницу Pi, как Би , то «важность» Пи рассчитывается по следующей формуле:
Все это похоже на проблему курицы и яйца.
Чтобы узнать PR страницы, нам сначала нужно узнать PR всех страниц, которые ссылаются на нее.
Однако математические методы могут решить эту проблему.
Для этого создается матрица гиперссылок.
, в какой строке i столбца j будет выглядеть так:
Это стохастическая матрица, то есть матрица, в которой все столбцы и/или строки представляют собой строки неотрицательных действительных чисел, сумма которых равна единице.
Сформируем вектор
, элементами которого являются значения PR, то есть «важность» всех страниц.
В наших условиях вектор оказывается стационарным.
Рассмотрим ситуацию на примере небольшой матрицы из восьми веб-страниц, гиперссылки между которыми отображаются стрелками.
Этой ситуации соответствует следующая матрица
и стационарный вектор
Расчет показывает, что в конкурсе популярности побеждает страница 8. Вот та же картинка, где самые «авторитетные» страницы окрашены в более светлый цвет.
Примерно так работает PageRank с математической точки зрения.
Это лишь основные принципы работы алгоритма.
Подробности можно найти в оригинальная статья .
Теги: #pagerank #PR #алгоритм #формула #математика #вектор #гиперссылка #в #математике
-
Лучшие Игровые Мыши 2021 Года
19 Oct, 24 -
Где Agile Ужасен, Особенно Scrum
19 Oct, 24