Поисковые роботы

A

andrewx3

#1
Поисковые роботы – это специальные программы, которые постоянно сканируют содержание сети интернет. Здесь нужно сделать небольшую, но очень важную поправку – роботы сканируют только текст, т.е. только веб-страницы на языках html, htm, shtml, xml и т.п. Все остальные файлы (архивы, графика, музыка, видео) роботы не трогают. Чаще всего вместо слова робот, используют слово поисковик, или поисковая машина, хотя это не верно. Поисковую машину в упрощённом виде можно представить как комплекс взаимосвязанных элементов, в которые обязательно входят:
1. Поисковый робот
2. База данных
3. Интерфейс для работы с пользователями (веб-сайт)
Дабы не запутать читателей, из этого списка я намеренно убрал такие элементы как обработчик запросов, различные дополнительные сервисы, которыми обладает каждый поисковик.
Зачем нужны роботы?
Интернет – это огромная сеть, содержащая огромное количество информации в которой хоть как ни будь, но нужно ориентироваться, т.е. иметь возможность найти в нужный момент времени нужные данные. Как раз для этого и нужны поисковики.
Чтобы поисковик знал, по какому адресу в интернете что лежит, ему нужно предварительно просмотреть все сайты и занести их содержание в собственную базу данных. Этим-то как раз и занимается поисковый робот. Затем, при получении запроса, поисковик просматривает собственную базу данных и выдаёт пользователю результаты по его запросу.
Казалось бы, столько шума из-за того, что по сайту разок пройдётся программа и его прочитает. Но роботы просматривают сайты не один и не два раза, они делают это постоянно, т.к. информация в сети постоянно изменяется, какие-то сайты появляются вновь, какие-то перестают работать, на некоторых страницах происходят изменения, поэтому, в базу данных поисковика необходимо постоянно вносить данные обо всех изменениях, произошедших в сети. В противном случае, через месяц результаты, выдаваемые в ответ на запросы, будут устаревшими, следовательно, неудовлетворительными.
Чем мощнее компьютер, на котором установлена программа-робот, тем большее количество страниц может быть просмотрено в единицу времени (например, в час, или в день). Такой просмотр страницы называется индексацией. Когда робот просмотрел все страницы сайта, говорят, что данный сайт проиндексирован. Но в интернете огромное количество веб-страниц, как робот успевает обходить все?
Роботы настраиваются таким образом, чтобы заходить на разные сайты с разным интервалом. Если сайт обновляется очень часто, то робот посещает его раз в день, или чаще. Если же раз за разом заходя на один и тот же сайт, робот не находит на нём никаких изменений и дополнений, то частота заходов на этот сайт в дальнейшем постепенно снижается. В итоге индексация сайта может происходить только раз в месяц, или реже.
Как робот ориентируется в сети?
Передвижение от сайта к сайту осуществляется по ссылкам. Когда робот в очередной раз просматривает в поисках обновлений сайт, он замечает на нём все ссылки, некоторые из них ему уже известны (т.е. адреса этих сайтов уже есть в его базе данных), а некоторые он видит впервые. Во втором случае робот либо немедленно переходит по новой ссылке, либо заносит её себе в «задания» и вернётся к ней через некоторое время.
 
R

realjumy

#2
Всем привет! Последние пару дней, наблюдаю странную ситуацию, ночью происходит отключение сайта и выдаёт ошибку 500, метрика шлёт сообщения о недоступности, обратился к хостингу, за помощью, говорят наблюдаем активность поисковых роботов, мол сайт не выдерживает нагрузку, Посмотреть вложение 147378

Посмотреть вложение 147379

На вопрос что делать, для исправления написали следующее:

добавьте в robots.txt следующее:

User-agent *

Crawl-delay 60

Это установит интервал между запросами 60 секунд.

Прошу помогите разобраться, если просто вставить это в пустой файл роботс, думаю ничего не изменится, блог работает на WP, и данный файл не создавался, тк регулируется всё плагином "Yoast SEO" подскажите выход из ситуации.

Спасибо.

















png

147378.png





png

147379.png
 
Get involved!

Here you can only see a limited number of comments. On СЕО Форум Вебмастеров you see all comments and all functions are available to you. To the thread