Как Не Допустить Попадания Роботов На Ваш Веб-Сай?

ФАЙЛ ROBOTS.TXT

Вы знаете, что поисковые системы были созданы, чтобы помочь людям быстро находить информацию в Интернете, и поисковые системы получают большую часть своей информации через роботов (также известных как пауки или краулеры), которые ищут для них веб-страницы.

Роботы-пауки или краулеры исследуют сеть в поисках и записывают всевозможную информацию. Обычно они начинаются с URL-адреса, предоставленного пользователями, или со ссылок, которые они находят на веб-сайтах, в файлах карты сайта или на верхнем уровне сайта.

Как только робот получает доступ к домашней странице, он рекурсивно обращается ко всем страницам, связанным с этой страницей. Но робот также может проверить все страницы, которые сможет найти на определенном сервере.

После того, как робот находит веб-страницу, он индексирует заголовок, ключевые слова, текст и т. д. Но иногда вам может потребоваться запретить поисковым системам индексировать некоторые ваши веб-страницы, например сообщения новостей и специально помеченные веб-страницы (например: партнерские страницы), но вопрос о том, соответствуют ли отдельные роботы этим соглашениям, является чисто добровольным.

ПРОТОКОЛ ИСКЛЮЧЕНИЯ РОБОТОВ

Поэтому, если вы хотите, чтобы роботы держались подальше от некоторых ваших веб-страниц, вы можете попросить роботов игнорировать веб-страницы, которые вы не хотите индексировать, и для этого вы можете разместить файл robots.txt на локальном корневом сервере вашего веб-сайта. сайт.

Например, если у вас есть каталог под названием «электронные книги», и вы хотите попросить роботов держаться от него подальше, ваш файл robots.txt должен выглядеть следующим образом:

Пользовательский агент: * Запретить: электронные книги/

Если у вас недостаточно контроля над сервером для настройки файла robots.txt, вы можете попробовать добавить мета-тег в заголовок любого HTML-документа.

Например, тег, подобный следующему, сообщает роботам не индексировать и не переходить по ссылкам на определенной странице:

мета-имя="РОБОТЫ" содержание="NOINDEX, NOFOLLOW"

Поддержка мета-тега среди роботов не так часта, как протокол исключения роботов, но большинство основных веб-индексов в настоящее время поддерживают его.

НОВОСТИ

Если вы хотите, чтобы поисковые системы не попадали в ваши новостные публикации, вы можете создать строку «X-no-archive» в заголовках ваших публикаций:

X-нет-архива: да

Но хотя обычные новостные клиенты позволяют вам добавлять строку X-no-archive в заголовки ваших новостных сообщений, некоторые из них не позволяют вам это делать.

Проблема в том, что большинство поисковых систем предполагают, что вся найденная ими информация является общедоступной, если не указано иное.

Поэтому будьте осторожны, потому что, хотя стандарты исключения роботов и архивов могут помочь предотвратить попадание ваших материалов в основные поисковые системы, есть и другие, которые не соблюдают такие правила.

Если вы очень обеспокоены конфиденциальностью вашей электронной почты и сообщений в Usenet, вам следует использовать анонимные ремейлеры и PGP. Вы можете прочитать об этом здесь:

http://www.well.com/user/abacard/remail.html http://www.io.com/~combs/htmls/crypto.html

http://world.std.com/~franl/pgp/

Даже если вас не особо беспокоит конфиденциальность, помните, что все, что вы пишете, будет где-то проиндексировано и заархивировано навечно, поэтому используйте файл robots.txt столько, сколько вам нужно.

Автор: доктор Роберто А. Бономи




Как не допустить роботов на ваш сайт

Роботы играют решающую роль в функционировании поисковых систем, сканируя и индексируя веб-страницы, позволяя пользователям быстро находить информацию в Интернете. Эти роботы, также известные как пауки или сканеры, исследуют Интернет и собирают различную информацию. Хотя они служат ценной цели, могут быть случаи, когда вы хотите запретить поисковым системам индексировать определенные веб-страницы на вашем сайте. В этой статье мы рассмотрим, как этого можно добиться с помощью файла robots.txt и других методов.

Файл Robots.txt

Файл robots.txt — это текстовый файл, который вы можете разместить на корневом сервере вашего веб-сайта, чтобы проинструктировать роботов о том, как взаимодействовать с вашими веб-страницами. Используя этот файл, вы можете попросить роботов игнорировать определенные веб-страницы или каталоги, индексирование которых вы не хотите.

Например, предположим, что у вас есть каталог под названием «электронные книги», который вы хотите исключить из индексов поисковых систем. В этом случае вы можете создать файл robots.txt со следующим содержимым:

Копировать

 
 
 

X-no-archive: yes

Это предписывает всем роботам, посещающим ваш сайт, воздерживаться от доступа к любому контенту в каталоге «электронные книги». Звездочка (*) в поле «Агент пользователя» обозначает всех роботов, а директива «Disallow» указывает каталог или страницу, которую вы хотите исключить.

Важно отметить, что соблюдение директив, указанных в файле robots.txt, является добровольным для отдельных роботов. Однако большинство роботов поисковых систем с хорошим поведением соблюдают эти соглашения и выполняют предоставленные инструкции.

Мета-теги для управления индексацией

В ситуациях, когда у вас недостаточно контроля над своим сервером для настройки файла robots.txt, вы можете использовать META-теги в HTML-коде ваших веб-страниц для управления поведением индексации.

Например, добавив следующий мета-тег в заголовок HTML-документа, вы можете запретить роботам индексировать страницу и переходить по любым ссылкам, присутствующим на ней:

Копировать



<meta name="robots" content="noindex, nofollow">

Директива noindex предписывает роботам не включать страницу в свой индекс, а директива nofollow предписывает им не переходить по ссылкам, найденным на странице. Хотя поддержка мета-тегов среди роботов, возможно, не так широко распространена, как протокол исключения роботов (robots.txt), большинство основных веб-индексов в настоящее время поддерживают этот метод.

Исключение публикаций новостей

Если вы не хотите, чтобы поисковые системы индексировали ваши новостные публикации, вы можете добавить строку «X-no-archive» в заголовки ваших публикаций. Эта строка явно указывает роботам поисковых систем не архивировать контент. Например:

Копировать



User-agent: * Disallow: /e-books/

Хотя многие распространенные новостные клиенты позволяют добавлять эту строку к вашим сообщениям, некоторые могут не предоставлять такую возможность. Важно отметить, что большинство поисковых систем считают всю информацию, которую они находят в Интернете, общедоступной, если явно не указано иное. Таким образом, использование исключительно заголовка «X-no-archive» не может гарантировать полного исключения из индексов поисковых систем.

Вопросы конфиденциальности

Если вы очень обеспокоены конфиденциальностью своей электронной почты и сообщений в Usenet, использование анонимных ремейлеров и инструментов шифрования, таких как PGP (Pretty Good Privacy), может обеспечить дополнительный уровень безопасности. Эти технологии помогают защитить ваши сообщения от легкой индексации и архивирования поисковыми системами.

Последние мысли

Хотя роботы поисковых систем необходимы для индексации и организации информации в Интернете, могут быть случаи, когда вы захотите исключить определенные веб-страницы из их индексов. Используя файл robots.txt, мета-теги и соответствующие заголовки, вы можете указать роботам поисковых систем не индексировать определенный контент или каталоги на вашем веб-сайте. Однако важно понимать, что соблюдение этих инструкций является добровольным для отдельных роботов. Для повышения конфиденциальности рассмотрите возможность использования дополнительных технологий, таких как анонимные ремейлеры и инструменты шифрования. Помните: все, что вы публикуете в Интернете, потенциально может индексироваться и архивироваться на неопределенный срок, поэтому важно использовать эти методы для защиты вашего контента, когда это необходимо.

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.