- 20, Jul 2012
- #1
Сейчас мы рассмотрим варианты проверки большого объема текста на уникальность.
- Из предложений убирают предлоги, знаки препинания, союзы и другие слова, не несущие напрямую смысловой нагрузки, это называется канонизация текста.
- Текст разбивают на шинглы (отрезки текста длиной 5-7 слов) и проверяется внахлест с возможным дубликатом, так используют шинглы.
- Использовав сами шинглы в качестве поисковых запросов вы проведете простое сравнение.
- Не стоит опускаться ниже 80% по уникальности текста.
При том количестве информации, которой пестрит инет, всегда можно сделать сборную солянку из разных источников и получить очень оригинальный текст, к которому ПС не смогут придраться.