- 12, Nov 2017
- #1
Автоматическая генерация тематического контента для веб-сайтов
Предположим, что некий человек занимается продвижением своих сайтов.
Контент периодически обновляется, люди вроде как ходят, поисковики индексируют.
И тут внезапно идея: «Как бы это так натырить наиболее релевантного контента по мнению передовых поисковых машин, перекрутить слегка смысл и синтаксис, да еще и автоматически залить к себе на сайт, при этом ничего не делая?» Идея кажется привлекательной для охотника за золотом.
Тут и пришла идея сделать такой агрегат, который не задает лишних вопросов, знает что почем и как.
inBlackhole - как раз тот инструмент, который позволяет это делать.
Работает он по следующему принципу.
Пользователь задает ему ключевое слово, по которому должен произойти поиск.
Программа скармливает ключевое слово поисковикам и получает от них ассоциации и наиболее искомые фразы-синонимы.
Так происходит с каждым словом, которое задает пользователь.
Когда параметры генерации заданы, все ключевые слова, отданные поисковиками нам, скармливаются им же. Те в ответ возвращают уже наиболее релевантный контент по заданному параметру поиска.
На этом этапе у нас уже есть ссылки на целевые материалы, которые в топе выдачи у поисковиков.
Затем программа напускает свой парсер, который вытягивает из результатов выдачи именно те результаты, которые содержат смысловую нагрузку и являются синтаксически верными.
Также синтаксический анализатор проводит небольшой рефакторинг текста, меняя его изначальную форму.
Параллельно с агрегацией материалов, программа занимается поиском аналогичных изображений по запросу и тематических видео.
Она позволяет искать даже в word’овских документах и pdf файлах, часто выдаваемых поисковиками.
Парсеры программы поставляются в виде отдельной библиотеки.
Это сделано специально для того случая, если поисковые машины решат изменить формат поиска, разметку страниц или форматы запросов.
Тогда авторы сайта обновляют эту библиотеку и клиентская программа на стороне пользователя скачивает свежую версию парсера.
Когда контент уже сохранен и сформирован локально, можно поставлять конечный вариант в нескольких видах:
В виде простых текстовых файлов, содержащих материалы.
В виде сгенерированного динамического сайта на php, содержащего все материалы и панель администратора, что позволяет менять темы сайта, расположение блоков и рекламы.
В виде CSV- файла, который можно использовать, например, в паре с Drupal модулем node import, который позволяет превратить импортировать csv файл на ваш сайт на друпале, создавая и размещая материалы за вас.
Контент периодически обновляется, люди вроде как ходят, поисковики индексируют.
И тут внезапно идея: «Как бы это так натырить наиболее релевантного контента по мнению передовых поисковых машин, перекрутить слегка смысл и синтаксис, да еще и автоматически залить к себе на сайт, при этом ничего не делая?» Идея кажется привлекательной для охотника за золотом.
Тут и пришла идея сделать такой агрегат, который не задает лишних вопросов, знает что почем и как.
inBlackhole - как раз тот инструмент, который позволяет это делать.
Работает он по следующему принципу.
Пользователь задает ему ключевое слово, по которому должен произойти поиск.
Программа скармливает ключевое слово поисковикам и получает от них ассоциации и наиболее искомые фразы-синонимы.
Так происходит с каждым словом, которое задает пользователь.
Когда параметры генерации заданы, все ключевые слова, отданные поисковиками нам, скармливаются им же. Те в ответ возвращают уже наиболее релевантный контент по заданному параметру поиска.
На этом этапе у нас уже есть ссылки на целевые материалы, которые в топе выдачи у поисковиков.
Затем программа напускает свой парсер, который вытягивает из результатов выдачи именно те результаты, которые содержат смысловую нагрузку и являются синтаксически верными.
Также синтаксический анализатор проводит небольшой рефакторинг текста, меняя его изначальную форму.
Параллельно с агрегацией материалов, программа занимается поиском аналогичных изображений по запросу и тематических видео.
Она позволяет искать даже в word’овских документах и pdf файлах, часто выдаваемых поисковиками.
Парсеры программы поставляются в виде отдельной библиотеки.
Это сделано специально для того случая, если поисковые машины решат изменить формат поиска, разметку страниц или форматы запросов.
Тогда авторы сайта обновляют эту библиотеку и клиентская программа на стороне пользователя скачивает свежую версию парсера.
Когда контент уже сохранен и сформирован локально, можно поставлять конечный вариант в нескольких видах:
В виде простых текстовых файлов, содержащих материалы.
В виде сгенерированного динамического сайта на php, содержащего все материалы и панель администратора, что позволяет менять темы сайта, расположение блоков и рекламы.
В виде CSV- файла, который можно использовать, например, в паре с Drupal модулем node import, который позволяет превратить импортировать csv файл на ваш сайт на друпале, создавая и размещая материалы за вас.