Как Мы Сканировали Весь Интернет И Что Выяснили

Сколько веб-сайтов вы посещаете ежедневно? Пара соцсетей, поисковик, несколько любимых издательств, около 5 рабочих сервисов.

Вряд ли будет больше 20 сайтов.



Как мы сканировали весь Интернет и что выяснили

Вы когда-нибудь задумывались, сколько сайтов в Интернете и что с ними происходит? Время от времени вы встречаете статьи с исследованиями, основанными на выборке различных топ-сайтов 1M. Но мне всегда было интересно, можно ли осмотреть все домены Интернета, не строя аналитику на очень маленькой выборке.

Впервые я задал этот вопрос больше года назад. Мы начали разработку сканера для веб-сайтов, и нам нужно было протестировать его на больших объемах.

Взяв ядро краулера, я сначала пробежался по доменам Рунета — это 5,5 млн доменов, а затем по всем 213 млн доменов (осень 2017).

За прошедшее время в разработку было вложено много сил и денег, алгоритмы стали лучше, я решил вернуться к анализу Интернета и собрать еще больше данных.

Целью сбора этой информации является получение надежной выборки, прежде всего, рабочих хостов, редиректов, серверов и заголовков x-powered-by.



Метод сбора

Само приложение написано на Go; он использует свои собственные реализации для работы с DNS и http-клиентом.

В качестве очереди Redis используется база данных mysql. Изначально существует только пустой домен, например example.com. Анализ состоит из нескольких этапов:

  1. Проверить наличие свободных мест

    http://example.com , http://www.example.com , https://example.com , https://www.example.com

  2. Если вам удалось подключиться хоть к какому-то варианту, то: - проанализировать /robots.txt — проверьте наличие /sitemap.xml
Примерно появляется и исчезает каждый день 100 тысяч доменов .

Очевидно, что сделать единоразовый снимок состояния сети практически невозможно, но делать это нужно как можно быстрее.

Мы развернули дополнительный кластер краулерных серверов, что позволило достичь средней скорости.

2 тысячи доменов в секунду .

Так что проверьте 252 миллиона доменов заняли примерно полтора дня .

Лирическое отступление Параллельно с ползанием развивается навык «1001 способ реагирования на оскорбления».

Это просто проклятие любого более или менее масштабного анализа.

Пришлось приложить немало усилий, чтобы доработать алгоритм, чтобы он не попадал на одни и те же IP за короткий промежуток времени и не стучал несколько раз по https.

Данные

Самый важный показатель при анализе сети — количество «живых» доменов.

Мы называем домен «живым», к которому резолвится IP и хотя бы одна из версий www/without_www http/https выдает какой-либо код ответа.



Как мы сканировали весь Интернет и что выяснили

Конечно, нельзя забывать и о коде 418 – чайники: 2227 штук.

Всего найдено 13,2 миллиона IP-адресов .

Стоит отметить, что для некоторых доменов дается сразу несколько IP-адресов, для других только один, но каждый раз разный.

Таким образом, средняя температура по больнице, в среднем на одном IP имеется 16 сайтов.

Изображение кода состояния выглядит следующим образом:

Как мы сканировали весь Интернет и что выяснили

сумма превышает общее количество доменов, поскольку каждый хост может выдавать 4 разных кода статуса (комбинации www/non www, http/https)

HTTPS

Переход на https стал тенденцией последних лет. Поисковые системы активно продвигают внедрение безопасного протокола, а Google Chrome вскоре начнет помечать http-сайты как незащищенные.



Как мы сканировали весь Интернет и что выяснили

Таким образом, доля сайтов, работающих по https, достигла 73% от количества сайтов работающих по http. Самая большая проблема при переходе — почти неизбежное падение трафика, потому что… Для поисковых систем http/https даже на одном домене — это технически разные сайты.

Новые проекты обычно запускаются сразу по https.

www или без www?

Поддомен www возник примерно вместе с самим Интернетом, но и сейчас некоторые люди не принимают адреса без www. В этом случае код ответа 200 для версии без www дает 118,6 млн.

.

домены и с www - 119,1 млн доменов .

4,3 миллиона доменов не имеют привязки IP к версии без www, т.е.

вы не получите доступ к сайту по example.com .

3 миллиона доменов не имеют IP-адреса, связанного с поддоменом www. Важным моментом является наличие редиректов между версиями.

Т.

к.

если в обоих случаях возвращается 200 кодов, то для поисковой системы это два разных сайта с дублирующимся контентом.

Напоминаю, не забудьте настроить правильные редиректы.

Перенаправления с www-> без www 32 миллиона .

, без www-> www 38 миллионов .

Глядя на эти цифры, мне сложно сказать, кто победил – www или без www.

Перенаправления

В SEO-кругах бытует мнение, что самый эффективный метод продвижения сайта — размещение на него редиректов со смежных сайтов.

35,8 миллиона доменов перенаправляются на другие хосты и если сгруппировать их по назначению, то мы увидим лидеров:

Как мы сканировали весь Интернет и что выяснили

Традиционно в топе регистраторы доменов и парковки.

Если посмотреть вверху по количеству менее 10 000 входящих редиректов, то можно увидеть много знакомых сайтов вроде booking.com. А казино и другие развлекательные сайты появляются в топ-1000.

Заголовок сервера

Наконец мы добрались до самого интересного! 186 миллионов доменов дают непустой заголовок заголовка .

Это 87% всех живых доменов, вполне достоверная выборка.

Если мы сгруппируем просто по значению, мы получим:

Как мы сканировали весь Интернет и что выяснили

В лидерах 20 серверов, на которых суммарно 96%:

Как мы сканировали весь Интернет и что выяснили

Мировой лидер — Apache, серебро у Nginx и замыкает троицу IIS. В общей сложности на этих трёх серверах размещаются 87% мировой интернет. Консервативные страны:

Как мы сканировали весь Интернет и что выяснили

Примечательно, что в Рунете картина иная:

Как мы сканировали весь Интернет и что выяснили

Здесь абсолютный лидер — Nginx, у Apache доля в три раза меньше.

Где еще любят Nginx:

Как мы сканировали весь Интернет и что выяснили

Остальные серверы распределены следующим образом:

Как мы сканировали весь Интернет и что выяснили



X-Powered-By

Заголовок Только 57,3 миллиона хостов имеют X-Powered-By. , это примерно 27% живых доменов.

В своей сырой форме лидеры:

Как мы сканировали весь Интернет и что выяснили

если обрабатывать данные и выбрасывать мусор, то выигрывает php:

Как мы сканировали весь Интернет и что выяснили

Версии PHP:

Как мы сканировали весь Интернет и что выяснили

Лично я несколько удивлен популярностью 5.6 и в то же время рад, что общая доля семёрок растёт. В Рунете также есть один сайт, на котором написано, что он работает на php/1.0, но достоверность этой цифры сомнительна.



Печенье



Как мы сканировали весь Интернет и что выяснили



Заключение

Я показал лишь очень малую часть информации, которую мне удалось найти.

Копаться в этих данных — все равно, что копаться в куче мусора в поисках интересных артефактов.

Нераскрытыми остались темы с блокировкой ботов поисковых систем и сервисов аналитики (ahrefs, majestic и других).

В такой выборке присутствует множество различных спутниковых сетей, и как бы вы ни старались скрыть следы, вы можете увидеть закономерности в тысячах доменов.

В ближайшем будущем мы планируем собирать еще больше данных, в частности из ссылок, слов, рекламных систем, кодов аналитики и многого другого.

Буду рад услышать ваши комментарии и замечания.

Теги: #Интернет #исследования #Интеллектуальный анализ данных #Большие данные #Исследования и прогнозы в ИТ

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.