Невизуальные Методы Защиты Сайта От Спама. Часть 1. Статистика

Часть 1. Что говорит статистика Невизуальные методы защиты сайта от спама предполагают автоматический анализ данных, полученных от посетителя.

Чем больше данных будет проанализировано, тем полнее и точнее можно будет идентифицировать посетителя и принять решение, спамер он или нет. Системы, анализирующие такие данные, как правило, накапливают статистику по данным посетителей и принятым решениям.

Представляем Вашему вниманию краткий обзор накопленных нами статистических данных (сервис защиты сайтов от спама).

CleanTalk ).

Здесь я намеренно не привожу данные анализа IP-адресов на основе черных списков.

Даже без них можно получить достаточно данных, анализируя только содержимое полей формы и HTTP-заголовков.

Я буду учитывать данные о тексте сообщения, никнейме и адресе электронной почты, а также HTTP-заголовки и результаты JavaScript-теста.

Анализ по заданным показателям очень прост алгоритмически и не требует ресурсов, поэтому его можно использовать перед другими, более ресурсоемкими проверками.

Данные отражают реальную картину на момент написания и основаны на анализе нашего текущего трафика (более 2 000 000 запросов в день).

Данные можно свободно использовать для анализа посетителей ваших сайтов.

Хочу отметить, что принимать решение по каждому критерию отдельно некорректно – лучший результат будет достигнут при комплексном анализе.



1. Текст сообщения

Текст сообщения – это, конечно, главное в спаме.

Следовательно, спамеры будут строить свои сообщения таким образом, чтобы они явно отличались от обычных сообщений по нескольким причинам.

В таблице представлена наиболее, с моей точки зрения, информативная статистика.

Параметры текста сообщения (средние значения) Не спам Спам
Количество звеньев, шт. 1.47 4.27
Количество контактов (телефон, электронная почта), шт. 1.72 6.38
Время заполнения формы, с 177 8
Отношение длины сообщения ко времени заполнения, символов/с 23.81 308.54
Количество ссылок говорит само за себя.

Количество контактной информации также может указывать на спам.

Больше всего варьируется время, необходимое для заполнения формы и, как следствие, скорость набора сообщения.



2. Никнейм посетителя

Нику тоже есть что сказать.

Вероятная причина — качество алгоритмов генерации ников, используемых спамерами.

Параметры никнейма (средние значения) Не спам Спам
Длина, символы 7.40 16.52
Количество символов-разделителей, шт. 1.89 3.80
Количество цифр, шт. 3.29 7.59
Длина непрерывной последовательности согласных (для латыни), символов 3.61 5.90
Одна из задач спамера — не натолкнуться на ошибку о том, что на сайте уже есть пользователь с таким ником.

Поэтому уникальность ников в настоящее время обеспечивается, судя по статистике, напрямую - длиной, вставкой разделителей и цифр.

В результате появляется множество прозвищ с большим количеством соседних гласных и согласных, причем последних больше.



3. Имя в электронном письме

Все сказанное о никах справедливо и для имен в почте.

Параметры имени в электронной почте (средние значения) Не спам Спам
Длина, символы 10.09 19.16
Количество символов-разделителей, шт. 1.62 4.12
Количество цифр, шт. 4.30 9.57
Замечу, что в качестве символов-разделителей часто используются точки — генерируется строка символов, затем к ней случайным образом добавляются точки, в результате чего получается множество названий почты.



4. HTTP-заголовки

Спамботы подделывают свои заголовки, чтобы не сильно отличаться от браузеров.

Однако, как показывает статистика, зачастую это справедливо только на момент написания бота.

В дальнейшем он продолжает работать и отправлять явно устаревшие заголовки, что видно из таблицы ниже.

Процент заголовков HTTP User-Agent Не спам Спам
Mozilla/4.0 (совместимый; MSIE 6.0; Windows NT 5.1; SV1) 0.01% 11.42%
Opera/9.80 (Windows NT 6.2; Win64; x64) Presto/2.12.388 Версия/12.17 0.01% 10.84%
Готовые спам-решения также могут оставлять свои заголовки, в частности при использовании HTTP-прокси.

И это тоже отражается в нашей статистике.

Через процент заголовка HTTP Не спам Спам
Микротик HttpProxy 0.86% 33.07%


5. Тест JavaScript

Дополнительной простой, но очень эффективной проверкой может стать JavaScript-тест. Например, изменить нужный файл cookie с помощью JS-кода, вариантов множество.

Самые продвинутые (и дорогие) боты проходят JS-тестирование.

Однако, как видно из статистики, большой процент спама исходит от очень простых программ, которые не умеют этого делать.

Процент неудачных тестов JS Не спам Спам
изменение файлов cookie через JS 0.41% 68.53%


6. Заключение

Я показал статистические данные, накопленные нашей системой на данный момент. Повторюсь, для наиболее точного решения спам/не спам необходимо анализировать данные показатели комплексно, а также в сочетании с другими методами проверки на спам.

Теги: #спам #антиспам #защита от спама #защита от ботов #информационная безопасность #разработка сайтов

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.