В этой статье я постараюсь максимально просто рассказать о парсинге сайтов и его основных нюансах.
Моя компания занимается анализом веб-сайтов более трех лет, и каждый день мы парсим около 300 веб-сайтов.
Я обычно открыто пишу об этом в социальных сетях (плюс многие результаты разбора крупнейших магазинов России мы публикуем бесплатно - публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей.
Забавно, прочитав комментарии, заглянуть в личный кабинет и прочитать сообщения с предложениями о сотрудничестве от тех же людей, которые только что осудили нас в комментариях под постом :) Вся статья будет в формате самого часто задаваемого вопросы и честные ответы (маркетинговые материалы, а не технические).
1. Что такое парсинг?
По определению, парсинг — это автоматизированный сбор неструктурированной информации, ее преобразование и представление в структурированном виде.Довольно безобидно, не так ли? Однако общество относится к этому довольно своеобразно, как к подростковой мастурбации - многие так делали :), но публично об этом никто не говорит. Более того, соскабливание часто не одобряется и считается чем-то слегка постыдным.
Причина, как и в большинстве подобных случаев, в неправильном восприятии.
Открою вам секрет: парсингом занимаются все.
По крайней мере, все крупные игроки рынка.
Пару лет назад в одной из статей в «Ведомостях» представители «М-Видео», «Связного» и «Ситилинк» даже открыто говорили об этом в ответ на интерес ФАС (см.
здесь ).
2. Зачем нужен парсинг?
В первую очередь целью парсинга является ценовая «разведка», анализ ассортимента, отслеживание промо-акций.«Кто что продает, за сколько и в каком количествеЭ» – основные вопросы, на которые должен ответить парсинг.
Более детально разбор ассортимента конкурентов или Яндекс.
Маркета отвечает на первые три вопроса.
Товарооборот несколько сложнее.
Однако такие компании, как «Вайлдберриз», «Ламода» и «Леруа Мерлен», открыто предоставляют информацию о ежедневных объемах продаж (заказах) или остатках продукции, на основании которых нетрудно получить общее представление о продажах (я часто слышу мнение, что эти данные могут быть искажены намеренно - возможно, а возможно и нет).
Смотрим, сколько товара было на складе сегодня, завтра, послезавтра и так в течение месяца, и вот готов график и составлена динамика изменения количества по позициям (фактически товарооборот) .
Чем выше динамика, тем больше оборот.
Потенциально возможный способ узнать оборот товаров с помощью ежедневного анализа остатков сайта Леруа Мерлен.
Можно, конечно, сослаться на перемещение товаров между точками.
Но в целом, если взять, например, Москву, цифра сильно не изменится, и в значительные перемещения товаров по регионам верится с трудом.
Аналогичная ситуация и с объемами продаж.
Есть, конечно, компании, которые публикуют информацию в формате много/мало, но даже с этим можно работать, и самые продаваемые позиции легко отслеживать.
Особенно, если вы откажетесь от дешевых вещей и сосредоточитесь исключительно на тех, которые представляют наибольшую ценность.
По крайней мере, мы сделали такой анализ — получилось интересно.
Во-вторых, парсинг используется для получения контента.
Возможно, здесь уже есть истории в стиле «легальных оттенков серого».
Многие люди зацикливаются на том, что парсинг – это именно воровство контента, хотя это совершенно не так.
Парсинг — это всего лишь автоматизированный сбор информации, не более того.
Например, парсинг фотографий, особенно с водяными знаками, является чистой воды кражей контента и нарушением авторских прав.
Поэтому обычно этого не делают (в своей работе мы ограничиваемся сбором ссылок на изображения, не более того.
ну иногда просят посчитать количество фотографий, отследить наличие видео по товару и предоставить ссылка и др.
).
Что касается сбора контента, то с описаниями товаров ситуация более интересная.
Недавно мы получили заказ на сбор данных о 50 сайтах крупных интернет-аптек.
Помимо информации об ассортименте и цене, нас попросили «разобрать» описание лекарственных средств – то самое, что входит в каждую упаковку и является т.н.
фактическую информацию, т.е.
вряд ли подпадает под действие закона об авторском праве.
В результате вместо того, чтобы набирать инструкции вручную, клиентам останется лишь внести небольшие корректировки в шаблоны инструкций, и все — контент для сайта готов.
Но да, могут быть и авторские описания лекарств, заверенные нотариально и сделанные специально как своеобразная ловушка для воров контента :).
Рассмотрим также сбор описаний книг, например, с OZON.RU или Labirint.ru. Здесь ситуация не столь однозначна с юридической точки зрения.
С одной стороны, использование такого описания может нарушать авторские права, особенно если описание каждой карточки с товаром было нотариально заверено (в чем я сильно сомневаюсь - ведь оно может быть и не сертифицировано, исключение составляют небольшие ресурсы, желающие тянуть похитителей контента в суд).
В любом случае, в данной ситуации вам придется изрядно потрудиться, чтобы доказать уникальность данного описания.
Некоторые клиенты идут еще дальше — подключают синонимизаторы, которые меняют (хорошие или плохие) слова в описании «на лету», сохраняя при этом общий смысл.
Еще одно использование синтаксического анализа весьма оригинально – «самоанализ».
Здесь есть несколько целей.
Для начала это отслеживание того, что происходит с контентом сайта: где битые ссылки, где недостаточно описания, дублирование товаров, отсутствие иллюстраций и т. д. Полчаса работы парсера – и вот вы иметь готовую таблицу со всеми категориями и данными.
Комфортный! «Самопарсинг» можно использовать и для сравнения остатков на сайте со своими складскими остатками (есть и такие клиенты, которые отслеживают сбои загрузки на сайт).
Еще одно применение «самопарсинга», с которым мы столкнулись в работе, — это структурирование данных с сайта для загрузки их на Яндекс Маркет. Ребятам было проще это сделать, чем вручную.
Парсятся также объявления, например, на ЦИАН-е, Авито и т.п.
Целями здесь могут быть как перепродажа баз риэлторам или туроператорам, так и откровенный телефонный спам, ретаргетинг и т.п.
В случае с Авито это особенно очевидно, потому что.
сразу составляется таблица с телефонами пользователей (несмотря на то, что Авито для защиты заменяет телефоны пользователей и публикует их в виде изображения, входящих звонков все равно не избежать).
3. «Что для вас в моем резюмеЭ» или парсинг HH.RU
В последнее время стали актуальны запросы на парсинг Headhunter. Правда, сначала люди просят продать им «базу хедхантеров».Но, когда они уже понимают, что никакой базы данных у нас нет и быть не может, мы переходим к разговору о парсинге в их профиле («под паролем»).
Это своеобразное направление парсинга и, честно говоря, оно нам не особо интересно, но поговорить о нем стоит. В чем тонкость? Клиент предоставляет доступ к своему аккаунту и ставит задачу сбора данных под свои нужды.
Те.
он уже оплатил доступ к базе данных HH и, подписав с нами договор, ставит перед нами задачу автоматического сбора информации в его интересах и под его аккаунтом, что полностью находится под его ответственностью.
Если HH обнаружит аномальную активность, учетная запись будет заблокирована.
Поэтому мы стараемся как можно лучше имитировать деятельность человека при сборе данных.
Если бы Х.
Х.
(насколько мне известно, «успешно» проваливший свои эксперименты с API) сам предоставлял (продавал) данные в таблице по регионам, скажем, контакты всех ныне работающих директоров по маркетингу в Москве, к нам бы никто не пришёл.
А пока человеку приходится делать это «своими руками», и они приходят к нам.
Ведь когда у вас есть такая таблица, гораздо удобнее заниматься рекламным спамом – холодными звонками.
Еще раз подчеркну, у нас нет базы данных ДХ, мы просто собираем данные для каждого клиента в соответствии с его потребностями, его счетом и его ответственностью.
Причем нарушение договора оферты не связано с использованием сайта парсинговой стороной.
Заключая с нами договор, клиент получает в проработку контакты около 450 лиц, принимающих решения, которые мы разместим на его сервере, а дальше его отдел продаж будет решать, что с ними делать.
х, мы бы тоже «спамили», если бы у нас была такая база данных.
Шутя :) Хотя лично я считаю, что в парсинге под паролем нет никаких перспектив.
А вот парсить открытые ресурсы – это другое дело.
Вы один раз все настраиваете и постоянно парсите, потом перепродаете доступ ко всем собранным данным.
Это более перспективно.
4. Законно ли парсинг?
В российском законодательстве нет статьи, запрещающей парсинг.Взлом, DDOS, кража авторского контента запрещены, но парсинг не является ни тем, ни другим, ни третьим и соответственно не запрещен.
Некоторые люди воспринимают парсинг как DDOS-атаку и сомневаются в этом.
Однако это совершенно разные вещи, и при парсинге мы, наоборот, стараемся как можно меньше нагружать целевой сайт и не навредить бизнесу.
Как и в случае со здоровым паразитизмом, мы не хотим, чтобы бизнес «выбрасывал копыта», иначе нам не на чем будет «паразитировать».
Обычно просят парсить большие сайты, из топа 300-500 сайтов России.
На таких сайтах трафик обычно составляет несколько миллионов в месяц, а может и больше.
И на таком фоне парсинг одного товара в секунду-две практически незаметен (чаще парсить нет смысла, 1-2 секунды на товар — оптимальная скорость для больших сайтов).
Соответственно, в наших действиях нет и намека на DDOS-атаку.
Очень редко нас просят обновить, например, весь сайт BERU.RU за день - это, честно говоря, слишком много и нагрузка на сайт слишком велика.
обычно на это уходит 3-4 дня.
Напомню, парсинг — это всего лишь совокупность того, что мы можем увидеть своими глазами на сайте и скопировать это своими руками.
Таким образом, под статью об авторском праве могут попасть только действия с уже собранной информацией, т.е.
действия самого заказчика.
Просто человек это делает долго медленно и с ошибками, а парсер делает быстро и не допускает ошибок.
Что делать, если речь идет о сборе данных с AliExpress или Wildberies? Человек просто не способен на такую задачу, и разбор — единственный выход. Правда, недавно меня попросили разобрать сайт государственной организации – суда, если не ошибаюсь.
Вся информация там есть в открытом доступе, но мы (на всякий случай) отказались.
:)
5. «Почему вы нас парсите, мы заказчик» или чем парсинг отличается от мониторинга цен?
Мониторинг цен — одно из самых популярных направлений применения парсинга.Но не все с ним так просто – в этом случае работать придется не только нам, но и самому клиенту.
Заказывая мониторинг цен, сразу предупреждаем, что будем анализировать не только конкурентов, но и заказчика.
Это необходимо для получения аналогичных таблиц с товарами и ценами, которые мы можем обновлять автоматически.
Однако такие данные сами по себе не представляют ценности, пока они не связаны друг с другом (так называемое сопоставление продуктов).
Некоторые позиции с разных сайтов мы можем сравнивать автоматически, но, к сожалению, на данный момент «машины» еще не настолько хороши, чтобы это можно было сделать без ошибок, и лучше человека (например, детали) нет никого.
временной сотрудник, работающий удаленно из регионов).
Если бы все отображали на сайте штрих-код, то было бы здорово, и мы могли бы делать все «ссылки» автоматически.
Но, к сожалению, это не так, и даже названия продуктов у разных компаний пишутся по-разному.
Хорошо, что такую работу нужно сделать один раз, а потом периодически перепроверять и при необходимости вносить небольшие коррективы.
Если есть ссылки, мы уже можем обновлять такие таблицы автоматически.
Кроме того, людям обычно не нужно следить за ценами на все подряд: в топе находится примерно 3-5 тысяч позиций, а мелочи не интересуют. А оператор из региона легко сможет выполнить такую работу примерно за 10 000 рублей в месяц.
Самый удачный и правильный вариант в данном случае, на мой взгляд, — загрузить полученный прайс-лист конкурентов прямо в вашу систему 1С (или другую ERP-систему) и провести сравнение там.
Это самый простой способ внедрить мониторинг цен в повседневную деятельность ваших аналитиков.
А без анализа такой разбор никому не нужен.
6. Как защититься от парсинга?
Ни за что.И стоит ли вообще защищаться от парсинга? Я бы не стал.
Работающей 100% защиты до сих пор нет (вернее, мы ее еще не видели), поэтому особого смысла пытаться защититься я не вижу.
Лучшая защита от парсинга — просто выложить готовую таблицу на сайт и написать — бери отсюда, обновляй раз в пару дней.
Если люди будут это делать, то у нас не будет хлеба.
Кстати, недавно мы звонили ИТ-директору крупной сети — они хотели проверить свою защиту от парсинга.
Я его прямо спросил, почему они этого не делают. Как технический специалист он прекрасно понимает, что никакая защита от парсинга вас не спасет, а только отпугнет дилетантов; но компании, зарабатывающие на парсинге, легко могут себе позволить исследования в этом направлении - долго и мучительно разбираться в новой защите, а в конечном итоге обходить ее.
Как правило, все используют один и тот же тип защиты, и такое исследование не раз пригодится.
Так вот, оказалось, что отдел маркетинга к этому не готов: «Почему мы должны облегчать жизнь нашим конкурентамЭ» Казалось бы, логично, но.
В результате компания потратит деньги на защиту, которая не поможет, а паразитная нагрузка на сайте останется.
Хотя, справедливости ради, стоит отметить, что для «студентов» изучение Python и разбор всего, что «движется», вполне может помочь.
Кстати, парсингом занимаются и Яндекс, и Google: заходят на сайт и индексируют его — собирают информацию.
Но все хотят, чтобы Яндекс и Гугл индексировали их сайты по понятным причинам, и никто не хочет, чтобы их парсили :)
7. «Я искал бесплатно…» или рассказ об авиабилетах
Однажды к нам обратились с интересным заказом на тестовый парсинг.Компания занимается продажей авиабилетов, и их заинтересовали цены конкурентов на пару самых популярных направлений.
Задача оказалась нетривиальной, так как пришлось повозиться с заменой и сравнением рейсов.
Интересно оказалось, что цены у Onetwotrip, Aviasales и Skyscanner на одни и те же рейсы немного отличаются (разброс около 5-7%).
Проект показался мне очень интересным, и я разместил о нем пост в социальных сетях.
К моему удивлению, обсуждение под постом оказалось довольно агрессивным, и я не сразу понял почему.
Потом мне написал генеральный директор одной из компаний, лидирующих на рынке продажи билетов в России, и ситуация прояснилась.
Оказалось, что запросы цен на билеты у таких компаний платные, потому что они берут информацию с международных платных сервисов.
И, помимо паразитной нагрузки, парсинг несет для них еще и финансовую нагрузку.
В любом случае, с вас никто не требует оплаты, если вы лично ищете билеты на этих сервисах, да и обычные люди тоже делают массу запросов, пока просматривают разные варианты.
В общем, тут бизнес-дилемма :)
8. «Рецепты шеф-парсера».
или как мы работаем? Думаю, для большего понимания всех аспектов парсинга стоит приоткрыть завесу нашей «внутренней кухни».
Все начинается с заказа.
Иногда клиенты обращаются к нам сами, а иногда мы звоним.
Особенно хорошо это работает с ордерами для мониторинга цен.
В этом случае нам приходится разбирать не только конкурентов, но и самого заказчика.
Поэтому мы иногда звоним тем, кого так или иначе разбираем, и говорим об этом открыто, предлагая свои услуги – ведь мы уже делаем работу.
Поначалу реакция очень негативная, но проходит пару дней, эмоции утихают, и клиенты сами перезванивают со словами: «К черту! Кого еще ты анализируешьЭ» Парсинг вызывает эмоции у ОЧЕНЬ многих владельцев посещаемых ресурсов.
Сначала они негативные, потому что это похоже на подглядывание в замочную скважину.
Потом это перерастает в интерес, а затем и в осознание потребности.
Бизнесмены – умные люди.
Когда эмоции угасают и остается холодный расчет, всегда возникает вопрос: «А может быть, мы где-то недостаточно поработали, и нам это тоже нужноЭ» Благодаря этим эмоциям мы довольно активно растем и развиваемся.
На данный момент мы парсим около 300 сайтов в день.
Обычно у нас заказывают 8-15 сайтов, а парсинг одного стоит от 5 до 9 тысяч рублей в месяц, в зависимости от сложности подключения, ведь каждый сайт приходится подключать индивидуально (на один ресурс уходит около 4-5 часов) .
Трудность в том, что некоторые люди начинают защищаться.
Борьба идет не столько с парсингом, сколько с какой-то паразитной нагрузкой, не приносящей им прибыли, но иногда приходится повозиться.
В любом случае ВСЁ СПАСАНО, даже если цена товара опубликована на сайте в виде картинки :) Желающим попробовать свои силы в разборе рекомендую потренироваться на сайте Аптеки Столичка и анализировать цены .
Интернет-магазин аптечной сети «Столички» — цены написаны внутренним шрифтом и для их анализа одним из решений будет сгенерировать картинку и распознать ее.
По крайней мере, мы так делаем.
Собранные данные передаются клиенту.
Обычно мы размещаем их в собственном облаке, постоянно обновляем и предоставляем клиенту доступ к ним через API. Если с данными вдруг что-то пойдет не так (а это случается редко — раз в 3-4 месяца), нам тут же звонят или пишут, и мы стараемся устранить проблему как можно быстрее.
Подобные сбои возникают при установке новой защиты или блокировки и устраняются с помощью исследования и прокси соответственно.
В другом случае, когда на сайте что-то меняется, бот просто перестает понимать, где что находится, и нашему программисту приходится настраивать его заново.
Но все решаемо, и клиенты обычно относятся к таким проблемам с пониманием.
Хочу отметить, что в нашем бизнесе личность заказчика никогда не разглашается – мы относимся к этому достаточно внимательно, и пункты в соглашении о неразглашении никто не отменял.
Хотя в разборе нет ничего предосудительного, но многие люди смущаются.
На самом деле, подведем итог: если вы занимаетесь растущим бизнесом, продаете широко распространенные товары или работаете в быстро меняющейся среде (например, нанимаете персонал или предлагаете определенные услуги определенной категории авторов рекламы, резюме и контента на других сайтах).
доски объявлений» в Интернете), то рано или поздно вы столкнетесь с парсингом (как клиент или как цель).
P.S.: если статья вам понравится, мы напишем о технической стороне дела - как мы обходим защиту, какие возможности используем, что там написано (.
net спойлер) и т.д. Максим Кульгин, xmldatafeed.com Теги: #парсинг контента #парсинг сайта #парсинг сайта #Веб-аналитика #Интернет-маркетинг #Управление электронной коммерцией #Контент-маркетинг
-
Кокосовая Пальма
19 Oct, 24 -
О Nap, Mab И Динамических Vlan
19 Oct, 24 -
Персональный Холивар
19 Oct, 24 -
Freecr — Консольный Форум
19 Oct, 24