Сколько веб-сайтов вы посещаете ежедневно? Пара соцсетей, поисковик, несколько любимых издательств, около 5 рабочих сервисов.
Вряд ли будет больше 20 сайтов.
Вы когда-нибудь задумывались, сколько сайтов в Интернете и что с ними происходит?
Время от времени вы встречаете статьи с исследованиями, основанными на выборке различных топ-сайтов 1M. Но мне всегда было интересно, можно ли осмотреть все домены Интернета, не строя аналитику на очень маленькой выборке.
Впервые я задал этот вопрос больше года назад. Мы начали разработку сканера для веб-сайтов, и нам нужно было протестировать его на больших объемах.
Взяв ядро краулера, я сначала пробежался по доменам Рунета — это 5,5 млн доменов, а затем по всем 213 млн доменов (осень 2017).
За прошедшее время в разработку было вложено много сил и денег, алгоритмы стали лучше, я решил вернуться к анализу Интернета и собрать еще больше данных.
Целью сбора этой информации является получение надежной выборки, прежде всего, рабочих хостов, редиректов, серверов и заголовков x-powered-by.
Метод сбора
Само приложение написано на Go; он использует свои собственные реализации для работы с DNS и http-клиентом.В качестве очереди Redis используется база данных mysql. Изначально существует только пустой домен, например example.com. Анализ состоит из нескольких этапов:
- Проверить наличие свободных мест
http://example.com , http://www.example.com , https://example.com , https://www.example.com
- Если вам удалось подключиться хоть к какому-то варианту, то: - проанализировать /robots.txt — проверьте наличие /sitemap.xml
Очевидно, что сделать единоразовый снимок состояния сети практически невозможно, но делать это нужно как можно быстрее.
Мы развернули дополнительный кластер краулерных серверов, что позволило достичь средней скорости.
2 тысячи доменов в секунду .
Так что проверьте 252 миллиона доменов заняли примерно полтора дня .
Лирическое отступление Параллельно с ползанием развивается навык «1001 способ реагирования на оскорбления».
Это просто проклятие любого более или менее масштабного анализа.
Пришлось приложить немало усилий, чтобы доработать алгоритм, чтобы он не попадал на одни и те же IP за короткий промежуток времени и не стучал несколько раз по https.
Данные
Самый важный показатель при анализе сети — количество «живых» доменов.Мы называем домен «живым», к которому резолвится IP и хотя бы одна из версий www/without_www http/https выдает какой-либо код ответа.
Конечно, нельзя забывать и о коде 418 – чайники: 2227 штук.
Всего найдено 13,2 миллиона IP-адресов .
Стоит отметить, что для некоторых доменов дается сразу несколько IP-адресов, для других только один, но каждый раз разный.
Таким образом, средняя температура по больнице, в среднем на одном IP имеется 16 сайтов.
Изображение кода состояния выглядит следующим образом:
сумма превышает общее количество доменов, поскольку каждый хост может выдавать 4 разных кода статуса (комбинации www/non www, http/https)
HTTPS
Переход на https стал тенденцией последних лет. Поисковые системы активно продвигают внедрение безопасного протокола, а Google Chrome вскоре начнет помечать http-сайты как незащищенные.
Таким образом, доля сайтов, работающих по https, достигла 73% от количества сайтов работающих по http.
Самая большая проблема при переходе — почти неизбежное падение трафика, потому что… Для поисковых систем http/https даже на одном домене — это технически разные сайты.
Новые проекты обычно запускаются сразу по https.
www или без www?
Поддомен www возник примерно вместе с самим Интернетом, но и сейчас некоторые люди не принимают адреса без www. В этом случае код ответа 200 для версии без www дает 118,6 млн..
домены и с www - 119,1 млн доменов .
4,3 миллиона доменов не имеют привязки IP к версии без www, т.е.
вы не получите доступ к сайту по example.com .
3 миллиона доменов не имеют IP-адреса, связанного с поддоменом www. Важным моментом является наличие редиректов между версиями.
Т.
к.
если в обоих случаях возвращается 200 кодов, то для поисковой системы это два разных сайта с дублирующимся контентом.
Напоминаю, не забудьте настроить правильные редиректы.
Перенаправления с www-> без www 32 миллиона .
, без www-> www 38 миллионов .
Глядя на эти цифры, мне сложно сказать, кто победил – www или без www.
Перенаправления
В SEO-кругах бытует мнение, что самый эффективный метод продвижения сайта — размещение на него редиректов со смежных сайтов.
35,8 миллиона доменов перенаправляются на другие хосты и если сгруппировать их по назначению, то мы увидим лидеров:
Традиционно в топе регистраторы доменов и парковки.
Если посмотреть вверху по количеству менее 10 000 входящих редиректов, то можно увидеть много знакомых сайтов вроде booking.com.
А казино и другие развлекательные сайты появляются в топ-1000.
Заголовок сервера
Наконец мы добрались до самого интересного! 186 миллионов доменов дают непустой заголовок заголовка .Это 87% всех живых доменов, вполне достоверная выборка.
Если мы сгруппируем просто по значению, мы получим:
В лидерах 20 серверов, на которых суммарно 96%:
Мировой лидер — Apache, серебро у Nginx и замыкает троицу IIS. В общей сложности на этих трёх серверах размещаются 87% мировой интернет.
Консервативные страны:
Примечательно, что в Рунете картина иная:
Здесь абсолютный лидер — Nginx, у Apache доля в три раза меньше.
Где еще любят Nginx:
Остальные серверы распределены следующим образом:
X-Powered-By
Заголовок Только 57,3 миллиона хостов имеют X-Powered-By. , это примерно 27% живых доменов.
В своей сырой форме лидеры:
если обрабатывать данные и выбрасывать мусор, то выигрывает php:
Версии PHP:
Лично я несколько удивлен популярностью 5.6 и в то же время рад, что общая доля семёрок растёт.
В Рунете также есть один сайт, на котором написано, что он работает на php/1.0, но достоверность этой цифры сомнительна.
Печенье
Заключение
Я показал лишь очень малую часть информации, которую мне удалось найти.Копаться в этих данных — все равно, что копаться в куче мусора в поисках интересных артефактов.
Нераскрытыми остались темы с блокировкой ботов поисковых систем и сервисов аналитики (ahrefs, majestic и других).
В такой выборке присутствует множество различных спутниковых сетей, и как бы вы ни старались скрыть следы, вы можете увидеть закономерности в тысячах доменов.
В ближайшем будущем мы планируем собирать еще больше данных, в частности из ссылок, слов, рекламных систем, кодов аналитики и многого другого.
Буду рад услышать ваши комментарии и замечания.
Теги: #Интернет #исследования #Интеллектуальный анализ данных #Большие данные #Исследования и прогнозы в ИТ
-
Я Слежу За Angular Meetup #15
19 Oct, 24 -
Re: Куда Мы Все Идем?
19 Oct, 24 -
Как Я Перевел Проект В Бэм... И Перевел
19 Oct, 24