Парсинг веб-страниц – пожалуйста, совет

Saint11

Пользователь
Регистрация
01.01.70
Сообщения
1
Реакции
0
Баллы
1
Адрес
Russia
Всем привет,
Парсинг веб-страниц – пожалуйста, совет
Пожалуйста, имейте в виду, что я не веб-разработчик.

Мой разработчик использует веб-скребок для очистки определенного контента с веб-сайтов. Все работает довольно хорошо, за исключением того, что он будет очищать только общедоступный контент, а не контент, стоящий за логином, даже при входе в систему под учетной записью.

Может ли кто-нибудь дать несколько советов, советов или указать мне направление веб-скребка, который можно настроить для очистки нужного нам контента И обойти требования для входа в систему.

Предварительное создание учетной записи на соответствующем сайте не является проблемой, а лишь то, как потом собрать необходимые нам данные. Как осуществляется обход?

Опять же, я не разработчик, поэтому мне будет очень полезно передать ему все, что может помочь, например пример, фрагмент кода или продукт, на который можно посмотреть.

Спасибо, ребята, и спасибо, что разрешили мне опубликовать.
 

XOTTABY41

Пользователь
Регистрация
26.09.14
Сообщения
1
Реакции
0
Баллы
1
Итак, этот пользователь возразил против моего вывода о том, что он ворует интеллектуальную собственность, и сравнил свой парсинг с индексацией поисковой системы.

Его разработчик будет использовать Curl и любое количество существующих пакетов с открытым исходным кодом, существующих десятилетиями.

Тот факт, что разработчик столкнулся с сайтом, на котором процесс входа в систему стал настолько сложным, что стандартный вход в систему с помощью Curl не работает, предполагает, что владелец сайта предпринял некоторые усилия, чтобы предотвратить скраперы. Я предполагаю, что разработчик проверил, есть ли API. Когда вы связались с владельцем сайта, предложили ли они решение? В конце концов, вы не делаете ничего плохого, поэтому обращение к владельцу сайта не вызовет никаких проблем.
 
Сверху Снизу