Парсинг веб-страниц – пожалуйста, совет

Saint11 · 15.05.24

Всем привет,

Пожалуйста, имейте в виду, что я не веб-разработчик.

Мой разработчик использует веб-скребок для очистки определенного контента с веб-сайтов. Все работает довольно хорошо, за исключением того, что он будет очищать только общедоступный контент, а не контент, стоящий за логином, даже при входе в систему под учетной записью.

Может ли кто-нибудь дать несколько советов, советов или указать мне направление веб-скребка, который можно настроить для очистки нужного нам контента И обойти требования для входа в систему.

Предварительное создание учетной записи на соответствующем сайте не является проблемой, а лишь то, как потом собрать необходимые нам данные. Как осуществляется обход?

Опять же, я не разработчик, поэтому мне будет очень полезно передать ему все, что может помочь, например пример, фрагмент кода или продукт, на который можно посмотреть.

Спасибо, ребята, и спасибо, что разрешили мне опубликовать.

XOTTABY41 · 19.05.24

Итак, этот пользователь возразил против моего вывода о том, что он ворует интеллектуальную собственность, и сравнил свой парсинг с индексацией поисковой системы.

Его разработчик будет использовать Curl и любое количество существующих пакетов с открытым исходным кодом, существующих десятилетиями.

Тот факт, что разработчик столкнулся с сайтом, на котором процесс входа в систему стал настолько сложным, что стандартный вход в систему с помощью Curl не работает, предполагает, что владелец сайта предпринял некоторые усилия, чтобы предотвратить скраперы. Я предполагаю, что разработчик проверил, есть ли API. Когда вы связались с владельцем сайта, предложили ли они решение? В конце концов, вы не делаете ничего плохого, поэтому обращение к владельцу сайта не вызовет никаких проблем.

Парсинг веб-страниц – пожалуйста, совет

Saint11

XOTTABY41

Поделиться страницей

О нашем форуме!

Новые пользователи

Что нового?