Pagerank Разбит По Формулам

Проиндексировано около 95% текста в 25 миллиардах документов.

Google , составленный на основе небольшого словаря из десяти тысяч слов.

Это означает, что практически любой поисковый запрос вернет миллионы документов.

Таким образом, расчет релевантности документа является нетривиальной математической задачей.

Для этого используется комбинация сложных математических методов.

Кроме того, веб-контент постоянно меняется, поэтому показатель релевантности необходимо постоянно пересчитывать.

Алгоритмы PageRank занимают центральное место в системе ранжирования Google. Все мы знаем, что конечным результатом PageRank является некий показатель «важности» PR-страницы, который принимает значения от PR0 до PR10 и рассчитывается путем анализа входящих ссылок.

Их количество и качество говорят о важности этой страницы для интернет-сообщества.

Уровень PR, который мы видим, — это сильно округленная величина, и точная цифра известна только программистам Google. Показатель PR изменяется в логарифмическом масштабе, то есть значение PR5 на порядок превышает PR4. Какие формулы используются для расчета PR? Это обсуждается в подробная статья на сайте Американского математического общества.

Вот как работает PageRank. Предположим, что на странице Пиджей опубликовано жж ссылки.

Если одна из этих ссылок ведет на страницу Пи , то Pj передаст 1/ж его страница «важности» Пи (примерно такой же алгоритм используется для передачи кармы на Хабр).

Уровень важности (т. е.

PR) страницы.

Пи представляет собой сумму всех таких значений по всем входящим ссылкам.

Если мы представим набор страниц, ссылающихся на страницу Pi, как Би , то «важность» Пи рассчитывается по следующей формуле:

PageRank разбит по формулам

Все это похоже на проблему курицы и яйца.

Чтобы узнать PR страницы, нам сначала нужно узнать PR всех страниц, которые ссылаются на нее.

Однако математические методы могут решить эту проблему.

Для этого создается матрица гиперссылок.



PageRank разбит по формулам

, в какой строке i столбца j будет выглядеть так:

PageRank разбит по формулам

Это стохастическая матрица, то есть матрица, в которой все столбцы и/или строки представляют собой строки неотрицательных действительных чисел, сумма которых равна единице.

Сформируем вектор

PageRank разбит по формулам

, элементами которого являются значения PR, то есть «важность» всех страниц.

В наших условиях вектор оказывается стационарным.

Рассмотрим ситуацию на примере небольшой матрицы из восьми веб-страниц, гиперссылки между которыми отображаются стрелками.



PageRank разбит по формулам

Этой ситуации соответствует следующая матрица

PageRank разбит по формулам

и стационарный вектор

PageRank разбит по формулам

Расчет показывает, что в конкурсе популярности побеждает страница 8. Вот та же картинка, где самые «авторитетные» страницы окрашены в более светлый цвет.

PageRank разбит по формулам

Примерно так работает PageRank с математической точки зрения.

Это лишь основные принципы работы алгоритма.

Подробности можно найти в оригинальная статья .

Теги: #pagerank #PR #алгоритм #формула #математика #вектор #гиперссылка #в #математике

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.