Настоящий парсер поисковых систем

  • Автор темы Дмитрий Егорин
  • Обновлено
  • 12, May 2024
  • #1
Настоящий парсер поисковых систем
предназначен для парсинга ссылок, сниппетов и поисковых подсказок в поисковой системе Google. Первая редакция этого парсера была выпущена в 2012 году для узкого круга пользователей, а с 26.06.2016 она доступна для всех желающих на этом сайте.

Системные Требования
Windows XP, 7, 8, 8.1, 10
Microsoft .NET Framework 3.5 или выше.

Параметры
Потоки – количество потоков.
SE – выбор поисковой системы и языка.
Сохранить ключ – выберите, сохранять ли ключ, который используется для поиска результатов. В data.txt результаты будут сохранены по формуле: http://example.com/[PARAM

]: Авто
Уровень – глубина разбора. Количество страниц, которые будут открыты (что касается Google, то у него 100 результатов на каждой странице, максимум 10 страниц). Установите параметр равным 0, чтобы выполнять поиск по максимальному количеству страниц (10 для Google).
Прокси – выберите, брать их из файла proxy.txt или по заданной ссылке раз в минуту. Внимание!!! Без прокси программа не работает, потому что поисковики быстро блокируют айпи и начинают выдавать капчи.
keys.txt – файл с ключами.
proxy.txt – файл с прокси-серверами (файл необходимо заполнить, в параметре Proxy указано брать прокси из файла, а не из URL)
Файлы необходимо заполнить перед запуском программы и только в формате utf-8.

Случай использования парсера
Предположим, что нам нужно разобрать все сайты, построенные на движке Joomla.

Характерной особенностью Joomla является наличие в URL-адресах «option=com_content». То есть, если вы используете inurl:"option=com_content" в поисковом запросе, Google выдаст не более 1 000 результатов.

Чтобы проанализировать больше веб-сайтов, нам понадобится больше вариантов запросов.

Это может выглядеть так:
inurl:"option=com_content" автомобиль
inurl:"option=com_content" ремонт автомобиля
Для создания большого списка ключей можно воспользоваться специальной программой, которая составляет комбинации клавиш из двух списков – Комбинации. Например, изначально у нас есть:
Список 1:
ключ1
ключ2
Список 2:
ключ3
ключ4
Тогда мы получаем:
ключ1 ключ3
ключ1 ключ4
ключ2 ключ3
ключ2 ключ4

Вместе с программой вы получаете несколько списков тематических клавиш, с помощью которых можно составлять комбинации (пока доступны только списки на русском языке). Возьмем любые два списка, например «города без стран.txt» и «высокочастотные запросы.txt». Поместите эти списки в «1.txt» и «2.txt» соответственно, запустите программу, установите в качестве разделителя вместо двоеточия пробел, нажмите «Комбинации», закройте программу.

Теперь у вас в data.txt 7,5 миллионов ключей, и вам нужно только добавить к ним особенность движка, например, inurl:"option=com_content". Поэтому мы снова запускаем программу и снова используем пробел в качестве разделителя.

В результате мы получаем список запросов, который выглядит следующим образом:
inurl:"option=com_content" Год в Аллентауне
inurl:"option=com_content" Жители Аллентауна
inurl:"option=com_content" Время в Аллентауне
inurl:"option=com_content" Дела Аллентауна
Это как раз то, что нам нужно. Теперь просто добавьте этот список в парсер True Search Engines.

http://nevep.ru/25-true-search-engines-parser

Дмитрий Егорин


Рег
16 Feb, 2015

Тем
81

Постов
201

Баллов
616
Тем
403,760
Комментарии
400,028
Опыт
2,418,908

Интересно