Сборник парсеров

  • Автор темы 5k5o5t
  • 34
  • Обновлено
  • 15, Apr 2023
  • #1
В сборнике парсеры картинок, твитов, групп ВК, сниппетов гугла, текста, html-кода, а также, — внимание!!! — парсер вебархива. Установка
  • качаете



    zip-архив


  • В архиве папочка /www/ — можете ее переименовать как вам угодно, например в /parsers/ и скопировать на свой сайт
  • Все готово! Теперь переходите на site.ru/parsers/ и наслаждаетесь результатом


Также можно установить на Денвер, однако денвер по умолчанию не работает с SSL-шифрованием (сайты с https), а это необходимо для некоторых парсеров.

Поэтому в zip-архиве есть папочка ext, в ней файл php_openssl.dll.

Его нужно скопировать в папку Денвера /usr/local/php5/ext — тогда все должно заработать. Ниже описание работы с парсерами Парсеры соцсетей Здесь всего два парсера — парсер твитов и парсер текста из групп ВК. В парсере твитов указываете аккаунт, а в парсере Вк-групп — соответственно id группы. Парсеры картинок В этой группе также 2 парсера — парсер Яндекс-картинок и просто парсер картинок



В парсере яндекс-картинок указываете запрос, по которому вам нужны катинки.

Картинки сохраняются в папке yaimages/upload, которую можно очистить нажав соответствующую кнопку. В парсере картинок соответственно указываете url, с которого нужно спарсить картинки, а также (необязательно) их css-класс.

Картинки сохраняются в папке images/upload, которую можно очистить нажав соответствующую кнопку. Кнопки «скачать zip-архивом» у этих 2 парсеров к сожалению пока не работают



Парсерты текста и html Парсер сниппетов гугла — в нем все просто, достаточно указать целевой запрос. А в парсере текста и html кроме url нужна указать «цель». Цель — это css-представление, например, для классов это «.myclass», а для id’ов это «#myid». Парсер вебархива Парсер был найден где-то на серче и добавлен в сборник. Спарсенные сайты ищите в папке webarchive/output. Чуть позже сделаю кнопку для скачивания спарсенных сайтов zip-архивом.

[Скрытая информация :: Авторизуйтесь для просмотра »


5k5o5t


Рег
30 Jan, 2007

Тем
1

Постов
1

Баллов
11
  • 17, Apr 2023
  • #2
Вы на хороший сайт не заливайте, используйте ГС или бесплатный типа Hostinger.com

Еще как вариант вырезать подключение iframe из всех файлов.
 

kelner


Рег
16 Apr, 2004

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #3
Ребят парсер с веб архива кто тестил?

Ребята, если кому интересно, то по вебархиву все работает и на Денвере. Только надо вот это установить:


http://www.denwer.ru/packages/php5.html

А вот с парсером текста не разобралась. Подскажите о каких классах там речь, если у кого настроение будет.
 

halfnighter


Рег
12 Apr, 2020

Тем
0

Постов
1

Баллов
1
  • 17, Apr 2023
  • #4
Ребят парсер с веб архива кто тестил?

Работает, но надо разбираться... Сложные проекты скорее всего не вытянет ...
 

МариСлава


Рег
15 Nov, 2011

Тем
0

Постов
1

Баллов
1
Тем
49554
Комментарии
57426
Опыт
552966

Интересно