A-Parser - многопоточный парсер поисковых систем

  • Автор темы psl-777
  • 88
  • Обновлено
  • 15, Apr 2023
  • #1
A-Parser - многопоточный парсер поисковых систем, сервисов оценки сайтов, ключевых слов, контента(текст, ссылки, email, телефоны, произвольные данные) и других различных сервисов(youtube, картинки, переводчик...), всего A-Parser содержит более 70 парсеров

На сегодняшний день A-Parser развился в невероятный SEO комбаин, позволяющий покрыть огромное число задач для SEO-специалистов и вебмастеров любого уровня подготовки:
  • Используйте встроенные парсеры

    чтобы с легкостью получать и анализировать любые данные
  • Воспользуйтесь нашим каталогом парсеров и пресетов

    для расширения возможностей A-Parser и решения нестандартных задач
  • Если вы продвинутый пользователь - создавайте свои собственные парсеры на основе регулярных выражений

    или XPath

  • Владеете JavaScript? Тогда A-Parser предлагает вам беспрецедентную возможность программировать свои собственные парсеры

    , используя всю мощь возможностей A-Parser!
  • Для автоматизации мы предлагаем API

    позволяющий легко встроить A-Parser в ваши бизнес процессы, а также для создания сервисов любого уровня сложности на базе нашего парсера








Кроме этого мы предоставляем услуги по составлению заданий и написанию парсеров под ваши задачи, в кратчайшие сроки и по демократичной цене. Хотите спарсить целиком интернет магазин(Ozon, Amazon, AliExpress)? Проверить 100 миллионов сайтов по вашим признакам? Получить данные с любого сайта в структурированном виде(CSV, JSON, XML, SQL)? В решении этих задач поможет наша дополнительная платная поддержка

A-Parser полностью решает рутинные задачи по получению, обработки и систематизации данных, необходимых для работы в следующих областях:
  • SEO-оптимизация сайтов и Web-аналитика

    • Сбор баз ссылок для XRumer, A-Poster, AllSubmitter, ZennoPoster...
    • Оценка сайтов и доменов по множеству параметров
    • Мониторинг позиции любых сайтов в поисковых системах
    • Сбор контента(текст, картинки, ролики) для генерации сайтов(дорвеев)
    • Отслеживание обратных ссылок
    • Сбор произвольной информации с любых сайтов(например телефоны/e-mails, сообщения с форумов, объявления...)
    • Сбор и оценка ключевых слов
    • Сбор списка обратных ссылок
    • И многое другое


  • Web-безопасность

    • Сбор и фильтрация баз ссылок по признакам
    • Определение CMS сайтов
    • Формирование произвольных GET, POST запросов с одновременной фильтрацией ответа


  • Сетевое администрирование

    • Работа с DNS службой - резолвинг доменов в IP адреса
    • Работа с Whois - дата регистрации и окончания регистрации доменов, name-cервера




A-Parser обладает следующими преимуществами:
  • Колоссальная производительность

    • Многопоточность - парсер способен распараллеливать сетевые операции до 5000-10000 потоков в зависимости от конфигурации компьютера и решаемой задачи
    • Продуманная внутренняя архитектура, в которую заложена производительность и расширяемость
    • Множественные оптимизации сложных операций
    • Парсер не требователен к ресурсам, может работать как на компьютере, так и на VDS или сервере, на операционных системах Windows, Linux или FreeBSD


  • Промышленные масштабы

    • Парсер разрабатывался с учетом работы с неограниченным размером данных
    • Способен обрабатывать сотни миллионов и миллиардов запросов
    • Размеры файлов запросов и результатов ничем не ограничены и могут достигать терабайтных значений


  • Автономность

    • A-Parser рассчитан на бесперебойную и беспрерывную работу без участия пользователя
    • Очередь заданий позволяет нагрузить парсер работой на недели и месяцы вперед
    • Одновременное выполнение нескольких разных задач для скорейшего получения результатов


  • Поддержка более 70 парсеров


  • Создание собственных пресетов

    • Использование регулярных выражений
    • Поддержка XPath
    • Поддержка многостраничного парсинга
    • Проверка контента и наличия следующей страницы


  • Создание собственных парсеров

    • Быстрая разработка на JavaScript
    • Многопоточность и работу с прокси обеспечивает A-Parser


  • Распознавание каптчи

    • Поддержка множества сервисов: антигейт, cheap-captcha.com, rucaptcha.com и любых других на основе AntiGate API
    • Поддержка CapMonster и XEvil


  • Мощные инструменты для формирования запросов и результатов

    • Конструктор запросов и результатов - позволяет видоизменять данные(поиск и замена, выделение домена из ссылки, преобразования по регулярным выражениям...)
    • Подстановки для запросов: из файла; перебор слов, символов и цифр
    • Фильтрация результатов - по вхождению подстроки, равенству, больше\меньше
    • Уникализация результатов - по строке, по домену, по главному домену(A-Parser знает все домены верхнего уровня, в т.ч. такие как co.uk, msk.ru)
    • Мощный шаблонизатор результатов на основе Template Toolkit - позволяет выводить результаты в любом удобном виде(текстом, csv, html, xml, json, sql, произвольный формат)


  • Гибкость настроек

    • В парсере используется система пресетов - для каждого парсера можно создать множество предустановленных настроек для различных ситуаций
    • Настроить можно все - никаких рамок и ограничений
    • Экспорт и импорт настроек позволяет легко обмениваться опытом с другими пользователями


  • Сетевые возможности

    • Поддержка HTTP/1.1, HTTP/2 и HTTPS(TLS)
    • Поддержка HTTP и SOCKS5 прокси, в т.ч. с авторизацией
    • Полностью асинхронная работа с сетью, включая работу с DNS


  • API

    • Возможность интегрировать и управлять парсером из своих программ и скриптов
    • Полная автоматизация бизнес-процессов
    • Клиенты для PHP, Perl, Python и NodeJS


  • Постоянные улучшения и исправления

    • Разработка парсера началась в 2011 году, а первый релиз вышел зимой 2012 года
    • С тех пор было выпущено более 100 новых версий, включающих множество улучшений и исправлений
    • A-Parser не останавливается в развитии, идет активная разработка, будет реализовано множество новых функций, в т.ч. по запросам от пользователей


  • Техническая поддержка



    • Мы прилагаем все усилия по поддержке пользователей и ответам на все возникающие вопросы
    • Создана подробная документация по A-Parser'у, открыт форум для пользователей
    • Специалист технической поддержки готов ответить любым удобным способом: ICQ, Skype, Jabber, GoogleTalk, e-mail и через форму онлайн связи на сайте
    • Разработчики A-Parser'а готовы ответить на любые сложные и технические вопросы, также открыт к обсуждению улучшений и дополнений для парсера




Более подробно ознакомится с возможностями парсера можно в полноценной документации

A-Parser предоставляется в трех версиях, сравнительная таблица и стоимость лицензий:






Мы принимаем к оплате в автоматическом режиме все популярные платежные системы, такие как Bitcoin, WebMoney, PayPal, Visa, MasterCard, Paxum, Яндекс.Деньги, QIWI, PerfectMoney, банковские переводы, терминалы оплаты и многое другое.

Для приобретения лицензии необходимо зарегистрироваться на сайте https://a-parser.com

и перейти на страницу оплаты

. Если у вас возникли вопросы - обращайтесь по любым контактам в техническую поддержку

psl-777


Рег
04 Oct, 2007

Тем
1

Постов
1

Баллов
11
  • 17, Apr 2023
  • #2
1.2.160 - поддержка SQLite, проверка доменов на клей, Parse all results в SE::Yahoo



Улучшения
  • Добавлена поддержка SQLite в JavaScript парсерах и шаблонизаторе, пример использования здесь

  • Добавлена защита от случайного закрытия окна парсера

  • В



    SE::Yahoo

    добавлены Parse all results и Parse related to level





  • SE::Yandex::TIC

    полностью переписан, добавлена возможность проверять домены на клей

  • В



    Rank::MegaIndex

    добавлена поддержка ReCaptcha2
  • Улучшен парсинг сниппетов в



    SE:: DuckDuckGo

  • Улучшен сбор почт в



    HTML:



    mailExtractor




Исправления в связи с изменениями в выдаче
  • Обновлен алгоритм Bypass Cloudflare





  • SE:



    ing::Translator


    почти полностью переписан в связи с изменением логики работы переводчика Bing

  • Исправлена работа



    SE::Seznam

    с некоторыми видами запросов

  • Исправлен парсинг related keywords, а также мобильной выдачи в



    SE::Modern

  • Исправлен парсинг related keywords в



    SE:



    ing


  • Исправлена работа



    SE::IxQuick

    при работе с русскоязычными запросами




  • SE::Yandex:: Direct

    ,



    SE:



    yImage


    ,



    SE::Yandex::WordStat



Исправления
  • Исправлена работа SE::Modern

    на IPv6 прокси
  • Исправлена ошибка, из-за которой SE::Modern

    собирал ссылки с пометкой опасных сайтов в общий массив ссылок

  • Исправлена работа с оператором поиска + в SE:



    ing


  • Исправлен парсинг запросов со спецсимволами в SE:: DuckDuckGo

  • Исправлена работа Rank::MajesticSEO

  • Исправлен баг с overrideOpts в JS парсерах

  • Исправлена работа с переменными при их создании в Parse custom results, а также при использовании нижнего подчеркивания в именах в Конструкторе результатов
  • Исправлена работа tools.js, баг появился в одной из предыдущих версий
  • Исправлен баг, из-за которого А-Парсер падал на некоторых ОС, появился в одной из предыдущих версий
 

victor_net_ho


Рег
11 Apr, 2020

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #3
Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

21-й сборник рецептов. В нем мы научимся отправлять сообщения в Telegram прямо из A-Parser, изучим работу с модулями Node.js в JS парсерах на примере решения задачи фильтрации по множеству признаков, а также спарсим весь IMDb. Поехали!
Уведомления в Telegram из A-Parser

Telegram является одним из самых популярных мессенджеров благодаря своей простоте, и в то же время большому функционалу.

Среди прочего, в Телеграме можно создавать ботов, с помощью которых можно делать чаты более интерактивными.

Взаимодействие с ботом на на стороне сервера происходит через Telegram Bot API.

Используя эти возможности, можно легко и буквально за несколько минут настроить уведомления себе в Telegram прямо из парсера.

О том, как это сделать, а также несколько реальных примеров - по ссылке выше.





Фильтрация по множеству признаков

Как известно, для фильтрации в А-Парсере используется встроенный функционал фильтров

. Но бывают ситуации, когда список признаков, наличие которых нужно проверять, очень большой и его сложно вписать в строку стандартного фильтра. Начиная с версии 1.2.127

в A-Parser добавлена поддержка модулей Node.js. Благодаря этому появилась возможность читать список признаков из файла и использовать его для проверки страниц. О том, как это сделать, а также готовый парсер с мультифильтром - по ссылке выше.



Парсинг рекомендаций фильмов из IMDb

Пример решения задачи по сбору данных о фильмах и их рекомендаций на IMDb.

Данная статья показывает, как можно решать задачи, которые на первый взгляд требуют много времени и ресурсов, буквально за несколько часов.

Узнать о том, как спарсить весь IMDb за 1,5 часа, а также посмотреть пресет и забрать готовую базу можно по ссылке выше.



Еще больше различных рецептов в нашем Каталоге

!
Предлагайте ваши идеи для новых парсеров здесь

, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter

.
Предыдущие сборники рецептов:


Сборники статей:
 

gala-kt


Рег
26 Mar, 2011

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #4
Видео урок: Создание JS парсеров. Получение результатов от стандартного парсера

Это видео начинает цикл уроков по созданию JavaScript парсеров. Здесь рассказано о том, как начать писать собственные парсеры, используя функционал JS парсеров в А-Парсере.






В уроке рассмотрено:
  • Создание кастомного JS парсера
  • Использование встроенного парсера внутри JS парсера
  • Парсинг выдачи поисковой системы с фильтрацией результатов по заданному условию


Полезные ссылки:


Статья и готовый парсер: https://a-parser.com/resources/254/

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
 

AlinaGavru


Рег
23 Dec, 2013

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #5
1.2.78 - поддержка сессий в JS парсерах, улучшение SE::Modern, правки в интерфейсе



Улучшения
  • Добавлена поддержка сессий в JavaScript парсерах
  • В



    SE::Modern

    добавлена поддержка сессий и улучшена производительность за счет уменьшения частоты появления каптч/рекаптч
  • Добавлена переменная $query.prev - показывает запрос, который использовался на предыдущем уровне
  • Для JS парсеров добавлен метод this.logger.putHTML, который позволяет вывести в лог HTML код
  • В Lite версию добавлен



    SE::Modern

    и



    Util::ReCaptcha2

  • В x86 версиях добавлено предложение перейти на x64
  • Добавлена возможность переименовывания пресетов
  • В окне выбора пресета для папок реализована "память на сворачивание"
  • Изменены иконки для JS парсеров
  • Исправлены ошибки с переводом в интерфейсе
  • Исправлено отображение HTML тегов в логах
  • Исправлен баг при импорте с вложенным парсером
  • Исправлен баг с прокруткой при сохранении JS парсеров и пресетов
  • Доработан Конструктор регулярных выражений
  • Другие мелкие правки в интерфейсе, направленные на улучшение общей работы


Исправления в связи с изменениями в выдаче
  • В



    SE::Modern

    исправлен парсинг сниппетов и рекламы, а также мобильной выдачи
  • В



    SE::Suggest

    исправлен парсинг подсказок, а также добавлена опция Remove HTML tags, позволяющая получать подсказки с или без html тегов
  • Исправлен парсинг анкоров и сниппетов в



    SE :: DuckDuckGo





  • SE::Ask

    ,



    SE :: Dogpile

    ,



    Rank::Mustat



Исправления
  • Исправлен баг с перемещением заданий в очереди
  • В



    SE::Modern

    исправлен баг с кодировкой
  • Исправлена работа параметров Request delay и Extra query string во всех JS парсерах
  • Исправлен выбор файлов запросов
  • Исправлено отображение иконок для JS парсеров
 

ArtLouk


Рег
08 Dec, 2006

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #6
Видео урок: Создание JS парсеров. Парсинг сайта с проходом по страницах

Второе видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать несложный парсер сайта, который будет "листать" страницы, используя функционал JS парсеров в А-Парсере.






В уроке рассмотрено:
  • Создание кастомного JavaScript парсера без использования встроенных парсеров
  • Парсинг контента сайта постранично с использованием регулярных выражений
  • Реализация прохода по страницам ("пагинации") в JS парсере


Статья и готовый парсер: https://a-parser.com/resources/255/

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
 

cash-stream


Рег
08 Nov, 2019

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #7
Использование Xevil совместно A-Parser для разгадывания ReCaptcha2



Как известно, сейчас Google при парсинге очень часто выдает рекаптчу, что значительно усложняет и замедляет сбор данных. В A-Parser есть возможность обходить данную проблему, разгадывая рекаптчу с помощью сторонних сервисов.

Поддерживаются различные онлайн сервисы, а также программные решения. Одним из таких решений есть XEvil.

Его использование дает хороший прирост в скорости, а также значительно удешевляет парсинг, ведь здесь нету оплаты за количество разгаданных каптч/рекаптч, как в онлайн сервисах.

Кроме этого, XEvil умеет разгадывать практически любые обычные каптчи (в виде картинки) и данная возможность также поддерживается в A-Parser.






На данный момент использовать разгадывание рекаптчи с помощью XEvil можно в таких парсерах:


В видео показано:
  • подключение Xevil к A-Parser для работы с ReCaptcha2
  • проверка работы и демонстрация работы в SE::Modern


Ознакомиться более детально с возможностями XEvil можно по ссылкам:


Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
 

sascac


Рег
23 Oct, 2011

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #8
1.2.138 - поддержка Node.js модулей, обработка ReCaptcha2 во всех парсерах Google, парсер AliExpress



В A-Parser 1.2.138 добавлена

эмуляция node

версии 8.9.x с поддержкой загрузки модулей и частичной реализацией fs и net модулей.

Это дает возможность обращаться из JavaScript парсеров напрямую к файловой системе, а также использовать подключение по TCP из модулей к другим сервисам(например mysql, redis, chrome...).

Все это позволило загружать и использовать node модули из каталога npm, в котором собраны множество полезных библиотек для обработки данных, коннекторы к базам данных и множество других интересных вещей.

На данный момент протестированы следующие модули: md5, async-redis, jsdom, puppeter.
Улучшения
  • Добавлена поддержка Node.js модулей в JavaScript парсерах




  • SE:: Position

    ,



    SE::Compromised

    и



    SE::TrustCheck

    полностью переписаны, добавлена поддержка ReCaptcha2
  • Улучшена работы



    SE::Modern

    в целом
  • В



    SE::Youtube

    добавлен выбор языка, а также реализована возможность включать/отключать Безопасный режим
  • Добавлен



    Shop::AliExpress

  • Улучшена проверка создаваемых переменных в пресетах
  • Улучшена работа сессий
  • Исправлено отображение имени файла запроса на карточке задания
  • Улучшена работа скрола в Тестовом парсинге
  • Добавлено удаление переносов из сниппетов в



    SE::Modern

  • Картинка каптчи в парсере



    SE::Yandex::Register

    теперь скачивается через прокси
  • Множество мелких улучшений в интерфейсе


Исправления в связи с изменениями в выдаче


Исправления
  • Исправлена работа Конструктора регулярных выражений
  • Исправлена работа с кодировками в парсерах переводчиков и JS парсерах
  • Исправлена работа SE:: Position

  • Исправлен выбор региона в SE::Yandex:: Direct

  • Исправлена работа опции Location в SE::Modern

  • Исправлена работа сессий в SE::Modern

    при переопределенном домене
  • Исправлена ошибка при совместном использовании опций Перезаписи файла, Начального и Конечного текстов
  • Исправлено отображение вкладок в Тесте задания
  • Исправлено отображение списка пресетов в поле Запустить по завершению
  • Исправлена работа this.proxy.set в JS парсерах
  • Исправлена передача дополнительных параметров в JS парсерах
  • Исправлена ошибка, из-за которой через API нельзя было указать Начальный и Конечный тексты
  • Исправлен экспорт пресетов
 

andrey556080


Рег
12 Nov, 2013

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #9
Сборник статей #3: пагинация, переменные и БД SQLite

В этом сборнике статей мы рассмотрим все возможные варианты решения задачи прохода по пагинации на сайтах, очень детально изучим работу с переменными в JavaScript парсерах, а также попробуем работать с базами данных SQLite на примере парсера курсов валют. Поехали!
Обзор вариантов прохода по пагинации

В A-Parser существует несколько способов, с помощью которых можно реализовать проход по пагинации.

В связи с их разнообразием, становится актуальным вопрос выбора нужного алгоритма, который позволит максимально эффективно переходить по страницам в процессе парсинга.

В этой статье мы постараемся разобраться с каждым из способов максимально подробно.

Также будут показаны реальные примеры и даны рекомендации по оптимизации многостраничного парсинга.

Статья - по ссылке выше.



Переменные в парсерах JavaScript

JS парсеры в А-Парсере появились уже около года назад.

Благодаря им стало возможным решать очень сложные задачи по парсингу, реализовывая практически любую логику.

В этой статье мы максимально подробно изучим работу с разными типами переменных, а также узнаем, как можно оптимизировать работу сложных парсеров.

Все это - в статье по ссылке выше.



Разработка JS парсера с сохранением результата в SQLite

Начиная с версии 1.2.152 в A-Parser появилась возможность работать с БД SQLite

. В данной статье мы рассмотрим разработку JavaScript парсера, который будет парсить курсы валют из сайта finance.i.ua и сохранять их в БД. В результате получится парсер, в котором продемонстрированы основные операции с базами данных. Подробности, а также готовый парсер - по ссылке выше.



Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки



) - отписывайтесь здесь

. Подписывайтесь на наш канал на Youtube

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter

.
Предыдущие сборники статей
 

tadeh2000


Рег
29 Mar, 2015

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #10
Видео урок: Создание JS парсеров. Работа с CAPTCHA

Третье видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать JS парсер, в котором будет поддержка антигейта для разгадывания каптч на страницах.






В уроке рассмотрено:
  • Создание JS-парсера для разгадывания капчи
  • Работа с объектом this.captcha внутри JavaScript кода
  • Описание процесса разгадывания каптчи, реализованного в A-Parser


Статья и готовый парсер: https://a-parser.com/resources/257/

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
 

cox2001


Рег
04 Feb, 2020

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #11
Видео урок: Создание JS парсеров. Работа с ReCaptcha2

Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.


В уроке рассмотрено:
  • Описание и настройка парсера



    Util::ReCaptcha2

  • Описание принципа работы ReCaptcha2
  • Создание кастомного JavaScript парсера с поддержкой разгадывания рекаптч


Ссылки:


Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
 

юююю


Рег
08 Jan, 2011

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #12
1.2.185 - увеличение скорости в SE::Modern, новые возможности Net:: DNS, множество улучшений





Улучшения





  • SE::Modern

    - многократно увеличена скорость парсинга
  • Множество улучшений в



    Net:: DNS

    :

    • Возможность указать несколько DNS и задать метод выбора
    • Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
    • Возможность вывести в результат использованный DNS сервер при удачном запросе


  • В



    SE::Modern

    добавлена опция Use sessions
  • В



    SE::Yandex::WordStat

    добавлена настройка пресета антигейта для логина
  • Также в



    SE::Yandex::WordStat

    удалены настройки Use logins/Use sessions, теперь они включены всегда
  • Добавлена возможность автоматического удаления задания из Завершенных
  • В макросе подстановок {num} добавлена поддержка обратного отсчета
  • В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
  • В JavaScript парсерах добавлена возможность прямого сохранения в файл
  • В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
  • В связи с неактуальностью удалены парсеры SE::Mobile и SE::Yandex::Catalog


Исправления в связи с изменениями в выдаче


Исправления
  • Количество неудачных больше не обнуляется при постановке на паузу
  • Исправлена проблема с подключением Node.js модулей на Linux
  • Исправлено падение парсера в редких ситуациях при использовании JS парсеров
  • Решена проблема с подключением Node.js модулей lodash, sequelize
  • Исправлена ошибка итератора при равных границах в макросе {num}
 

КАИ


Рег
10 Jun, 2011

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #13
Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов 22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!
Получение страниц сайта и проверка индексации в Google и Яндекс

Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.



Парсим title и description для TOP10 поисковой выдачи по ключевому слову

Пример использования tools.query.add в JavaScript парсерах.

Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description.

И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу.

Парсер с описанием доступны по ссылке выше.



Поиск сабдоменов сайта

Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется



HTML::LinkExtractor

и Parse to level

для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.



Кроме этого:


Еще больше различных рецептов в нашем Каталоге

!
Предлагайте ваши идеи для новых парсеров здесь

, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter

.
Предыдущие сборники рецептов:
 

ffffffff


Рег
18 Oct, 2006

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #14
Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!
Получение категорий сайтов из Google

Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.



Выгрузка товаров в формате YML

YML - это стандарт, разработанный Яндексом для работы с Маркетом.

По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине.

Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.



Парсим Google новости с датой и преобразуем ее

В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.



Кроме этого:


Еще больше различных рецептов в нашем Каталоге

!
Предлагайте ваши идеи для новых парсеров здесь

, лучшие будут реализованы и опубликованы. Подписывайтесь на наш канал на Youtube

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter

.
Предыдущие сборники рецептов:
 

bobkren


Рег
25 Jun, 2009

Тем
0

Постов
1

Баллов
1
Тем
49554
Комментарии
57426
Опыт
552966

Интересно