Часть 1. Что говорит статистика Невизуальные методы защиты сайта от спама предполагают автоматический анализ данных, полученных от посетителя.
Чем больше данных будет проанализировано, тем полнее и точнее можно будет идентифицировать посетителя и принять решение, спамер он или нет. Системы, анализирующие такие данные, как правило, накапливают статистику по данным посетителей и принятым решениям.
Представляем Вашему вниманию краткий обзор накопленных нами статистических данных (сервис защиты сайтов от спама).
CleanTalk ).
Здесь я намеренно не привожу данные анализа IP-адресов на основе черных списков.
Даже без них можно получить достаточно данных, анализируя только содержимое полей формы и HTTP-заголовков.
Я буду учитывать данные о тексте сообщения, никнейме и адресе электронной почты, а также HTTP-заголовки и результаты JavaScript-теста.
Анализ по заданным показателям очень прост алгоритмически и не требует ресурсов, поэтому его можно использовать перед другими, более ресурсоемкими проверками.
Данные отражают реальную картину на момент написания и основаны на анализе нашего текущего трафика (более 2 000 000 запросов в день).
Данные можно свободно использовать для анализа посетителей ваших сайтов.
Хочу отметить, что принимать решение по каждому критерию отдельно некорректно – лучший результат будет достигнут при комплексном анализе.
1. Текст сообщения
Текст сообщения – это, конечно, главное в спаме.Следовательно, спамеры будут строить свои сообщения таким образом, чтобы они явно отличались от обычных сообщений по нескольким причинам.
В таблице представлена наиболее, с моей точки зрения, информативная статистика.
Параметры текста сообщения (средние значения) | Не спам | Спам |
---|---|---|
Количество звеньев, шт. | 1.47 | 4.27 |
Количество контактов (телефон, электронная почта), шт. | 1.72 | 6.38 |
Время заполнения формы, с | 177 | 8 |
Отношение длины сообщения ко времени заполнения, символов/с | 23.81 | 308.54 |
Количество контактной информации также может указывать на спам.
Больше всего варьируется время, необходимое для заполнения формы и, как следствие, скорость набора сообщения.
2. Никнейм посетителя
Нику тоже есть что сказать.Вероятная причина — качество алгоритмов генерации ников, используемых спамерами.
Параметры никнейма (средние значения) | Не спам | Спам |
---|---|---|
Длина, символы | 7.40 | 16.52 |
Количество символов-разделителей, шт. | 1.89 | 3.80 |
Количество цифр, шт. | 3.29 | 7.59 |
Длина непрерывной последовательности согласных (для латыни), символов | 3.61 | 5.90 |
Поэтому уникальность ников в настоящее время обеспечивается, судя по статистике, напрямую - длиной, вставкой разделителей и цифр.
В результате появляется множество прозвищ с большим количеством соседних гласных и согласных, причем последних больше.
3. Имя в электронном письме
Все сказанное о никах справедливо и для имен в почте.
Параметры имени в электронной почте (средние значения) | Не спам | Спам |
---|---|---|
Длина, символы | 10.09 | 19.16 |
Количество символов-разделителей, шт. | 1.62 | 4.12 |
Количество цифр, шт. | 4.30 | 9.57 |
4. HTTP-заголовки
Спамботы подделывают свои заголовки, чтобы не сильно отличаться от браузеров.Однако, как показывает статистика, зачастую это справедливо только на момент написания бота.
В дальнейшем он продолжает работать и отправлять явно устаревшие заголовки, что видно из таблицы ниже.
Процент заголовков HTTP User-Agent | Не спам | Спам |
---|---|---|
Mozilla/4.0 (совместимый; MSIE 6.0; Windows NT 5.1; SV1) | 0.01% | 11.42% |
Opera/9.80 (Windows NT 6.2; Win64; x64) Presto/2.12.388 Версия/12.17 | 0.01% | 10.84% |
И это тоже отражается в нашей статистике.
Через процент заголовка HTTP | Не спам | Спам |
---|---|---|
Микротик HttpProxy | 0.86% | 33.07% |
5. Тест JavaScript
Дополнительной простой, но очень эффективной проверкой может стать JavaScript-тест. Например, изменить нужный файл cookie с помощью JS-кода, вариантов множество.Самые продвинутые (и дорогие) боты проходят JS-тестирование.
Однако, как видно из статистики, большой процент спама исходит от очень простых программ, которые не умеют этого делать.
Процент неудачных тестов JS | Не спам | Спам |
---|---|---|
изменение файлов cookie через JS | 0.41% | 68.53% |
6. Заключение
Я показал статистические данные, накопленные нашей системой на данный момент. Повторюсь, для наиболее точного решения спам/не спам необходимо анализировать данные показатели комплексно, а также в сочетании с другими методами проверки на спам.Теги: #спам #антиспам #защита от спама #защита от ботов #информационная безопасность #разработка сайтов
-
Ноутбук Dell Studio Xps 16
19 Oct, 24 -
Мы Здесь
19 Oct, 24 -
Знакомые Вещи, Необычный Функционал
19 Oct, 24 -
Легальная Музыка
19 Oct, 24 -
Хитрости Привязки Данных Flex
19 Oct, 24 -
Список Разделов В Android
19 Oct, 24 -
Печатные Издания И Онлайн-Продажи
19 Oct, 24