Введение Я не буду распространять параноидальные сказки о том, что АНБ и ФСБ следят за всеми.
Давайте просто возьмем за основной тезис, что tor и i2p — это «наше все».
К сожалению, в контексте ТОР зачастую можно услышать только о «Шелковом пути» и детской порнографии.
Типа, рассадник, раскачивающийся и вторгающийся.
Я управляю несколькими узлами tor-exit и i2p-роутерами.
Во избежание вопросов, мой работодатель к ним не имеет никакого отношения: все эти узлы исключительно за мой счет, в мое свободное время.
Самому старшему из них почти год, младшему около 4 месяцев.
За это время я не получил ни одного сообщения о нарушении (сам работаю в хостинговом бизнесе, поэтому прекрасно представляю себе процесс реагирования на «абьюз» — его сначала отправляют клиенту).
Несмотря на отсутствие злоупотреблений, остался вопрос: почему люди используют TOR? Контроль над выходным узлом позволяет посмотреть проходящий трафик.
Понятно, что мы исключаем весь зашифрованный трафик (TLS, SSH), а также весь трафик на .
onion-ноды.
Однако, помимо прочего, мы можем посмотреть примерное распределение ресурсов по популярности.
Забегая вперед, немного упрощенный ответ на вопрос статьи:
(более подробная таблица – в конце статьи)
Методика измерения
Мы использовали данные нескольких выходных узлов в России, Франции и Германии.
Данные собирались в течение недели с использованием pcap, со следующей строкой: пока true;do tshark -i venet0 -O http -Y http.request -T поля -e http.request.full_uri > > http_log7;rm /tmp/wire*;done (tshark глючит и периодически вылетает, для этого while/true. Вместо этого он извлекает URI из http-запросов в чистом виде) До начала сбора данных все узлы «отстоялись» примерно три недели (с момента последнего перезапуска) и для всех из них tor потреблял всю доступную ему пропускную способность.
Всего было зафиксировано 3,9 миллиона обращений, из них выкинули js/css/ico/xml файлы, осталось 3,7 миллиона.
Анализ Я набросал простой скрипт: github.com/amarao/url_prober для анализа.
Начнем с простого — топ посещений, топ доменов и т. д. Поскольку отслеживания пользователей не было, единственное, чем мы можем оперировать, — это количеством обращений.
Топ10 самых посещаемых страниц (адрес, количество, процент от общего числа): cloud.tvigle.ru//img/zero_rkm_chk.gif 193330 просмотров, 5,73% dmg.digitaltarget.ru 83905 просмотров, 2,48% ib.adnxs.com/getuid 65007 просмотров, 1,93% stat.tvigle.ru/track 42513 просмотров, 1,26% asg.vidigital.ru 31966 просмотров, 0,95% www.google-analytics.com/__utm.gif 31259 просмотров, 0,93% advombat.ru/api/id 23363 просмотров, 0,69% x.ulogix.ru/match/digitaltarget 23040 просмотров, 0,68% Blub.vidigital.ru 22726 просмотров, 0,67% tags.bluekai.com/site/5400 22488 просмотров, 0,67% Как мы видим, наиболее часто встречающиеся страницы — служебные и связанные с отслеживанием пользователей рекламными сетями — ничего интересного.
Далее идут топ11 доменов с топовыми страницами домена:
cloud.tvigle.ru (243405 hits, 7.21%) http://cloud.tvigle.ru//img/zero_rkm_chk.gif 193330 http://cloud.tvigle.ru/api/player/46/ 18696 photo.tvigle.ru (116943 hits, 3.46%) http://photo.tvigle.ru/resource/rf/flv_lst/232904/src.jpg 1696 http://photo.tvigle.ru/resource/rf/flv_lst/232899/src.jpg 1602 mc.yandex.ru (110897 hits, 3.28%) http://mc.yandex.ru/watch/219670 15381 http://mc.yandex.ru/watch/27181436 15212 www.tns-counter.ru (107708 hits, 3.19%) http://www.tns-counter.ru/V13a***R%3Ehttp://forum.kinomania.ru/showthread.php 792 http://www.tns-counter.ru/V13a***R%3Ehttp://brandcase.info/auto/index.php 153 ib.adnxs.com (91854 hits, 2.72%) http://ib.adnxs.com/getuid 65007 http://ib.adnxs.com/ttj 14706 asg.vidigital.ru (79994 hits, 2.37%) http://asg.vidigital.ru/ 31966 http://asg.vidigital.ru/1/3414/c/v/2 7688 bcp.crwdcntrl.net (44450 hits, 1.32%) http://bcp.crwdcntrl.net/5/c=2962 22309 http://bcp.crwdcntrl.net/5/ct=y/c=2962 1377 www.google-analytics.com (44145 hits, 1.31%) http://www.google-analytics.com/__utm.gif 31259 http://www.google-analytics.com/collect 11003 ad.adriver.ru (44087 hits, 1.31%) http://ad.adriver.ru/cgi-bin/merle.cgi 22142 http://ad.adriver.ru/cgi-bin/rle.cgi 9378 stat.tvigle.ru (42514 hits, 1.26%) http://stat.tvigle.ru/track/ 42513 htthttp://stat.tvigle.ru/track/ 1 vk.com (38796 hits, 1.15%) http://vk.com/share.php 9811 http://vk.com/widget_community.php 9744 http://vk.com/al_photos.php 6214Опять же в топе все баннерные сети и трекеры, за редким исключением в виде vk.com (социальная сеть) и tvigle.ru (онлайн-кинотеатр).
Ради ВК мне даже пришлось сделать топ11, а не топ10. Все будет работать не так.
Что люди _смотрят_? Легенда гласит, что должен быть экстремизм, самоубийства, наркотики, кошки, порнография, детская порнография, оппозиционеры и прочие запрещенные вещи.
Ну, верхний метод не работает. Давайте поступим по-другому: Возьмем все ресурсы, на доменах которых было не менее нескольких десятков обращений (например, 10), выберем из них около 300 и для каждого из них сделаем выборку страниц, которые были посещены хотя бы несколько раз (более 1).
.
Давайте возьмем хотя бы 4 таких страницы (для каждого соответствующего домена) и попробуем классифицировать их вручную.
Это даст нам статистическое представление о том, какие сайты посещали пользователи.
Затем начинается веселье.
Я вручную просмотрел эти 300 случайно выбранных ссылок.
Сами ссылки при минимальной модерации (забитые URL в случае клинической опасности удаления) можно просмотреть здесь .
Этот процесс занял у меня около недели.
Эта задача оказалась сложнее, чем кажется, ведь как можно классифицировать бразильский сайт без англоязычной версии, посвященной чему-то неизвестному? К тому же, вы не поверите, как скучно смотреть на неинтересные сайты.
Сначала я хотел сделать выборку из 500 сайтов, но к двухсотому сайту я полностью выдохся, так что три сотни — это мой личный героический подвиг.
Несмотря на то, что просмотрено всего 300 результатов, это случайная выборка «посещаемых» узлов в течение недели, нормированная по доменам — то есть кратковременные всплески популярности в выборке не должны были существенно повлиять на результат. Результаты классификации приведены ниже.
Они могут показаться слишком большой группой, но мне действительно не было интересно классифицировать разные интернет-магазины тортов и сумочек.
Опубликованы полные ссылки на то, что мы рассмотрели, а также сценарий для случайной выборки.
здесь .
Категория | Процент |
Обычная порнография | 11.0% |
Корпоративные сайты | 11.0% |
Интернет-магазины | 7.3% |
Новостные сайты | 7.0% |
API на основе HTTP | 7.7% |
Блоги, форумы, BBS | 6.7% |
Рекламные и баннерные сети | 5.7% |
Фильмы, видео (кроме трекеров) | 3.7% |
Социальные медиа | 3.3% |
Услуги хостинга | 3.3% |
Программное обеспечение | 3.0% |
Попытки взлома веб-сайтов | 3.0% |
Легковые автомобили | 3.0% |
Хостинг изображений или файлов | 2.7% |
Игры | 2.7% |
Страницы для поисковых систем (SEO) и лендинга.
|
2.3% |
Страницы с различной (невинной) информацией.
|
2.3% |
Спорт и путешествия | 1.7% |
Недвижимость | 1.7% |
Хобби | 1.7% |
Религия и эзотерика (в том числе культовые места) | 1.3% |
Прочее (правительство, знакомства, мгновенные сообщения, торренты, по 1 штуке) | 1.3% |
Музыка и аудиокниги | 1.3% |
Сайты с вредоносным ПО и откровенно мошеннические | 1.3% |
Сайты вакансий | 1.3% |
Детская порнография | 0.7% |
Веб-почта | 0.7% |
Сайты медицинских организаций | 0.7% |
Образовательные сайты | 0.7% |
Поскольку я не встретил ни одного сайта с нелегальными товарами, категорий «наркосайты», «поддельные документы», «оружие» и «работорговля» в приведенном выше списке нет.
выводы
- Большинство интернет-ресурсов (его белая часть), посещаемых через TOR, не имеют криминальной составляющей и мало чем отличаются от обычного серфинга.
- Значительная часть трафика посвящена вопросам размножения homo sapiens.
- В белом интернете еще остался CP, но его доля посещений меньше процента.
- TOR может и используется для проведения атак на веб-сайты.
- Наркотических и запрещенных веществ, оружия, взрывчатых веществ и т.п.
обнаружено не было.
- В ТОРе почти нет политической активности.
проходит через ТОР.
Еще раз повторю, учитывался только http-трафик, доступ к которому осуществляется с exit-нод. Все луковые сайты и не-http трафик в белом интернете остались за кадром.
P.S. Если вы не используете HTTPS, то любой оператор выходного узла сможет увидеть весь ваш «белый» трафик, включая куки и пароли.
UPD: В связи с многочисленными вопросами по поводу невключения сайтов .
onion в выборку, комачи предложил ссылку на публикацию www.dailydot.com/politics/tor-dark-net-study-size , в котором говорится, что скрытые сайты занимают около 3,4% общего трафика.
Теги: #Tor #детская порнография #детская порнография #вредоносное ПО #анонимность #одноранговая #информационная безопасность #i2p
-
Несколько 10-Дюймовых Планшетных Пк
19 Oct, 24 -
Популярное Программное Обеспечение Cms
19 Oct, 24 -
Варианты Веб-Дизайна Для Вашего Бизнеса
19 Oct, 24 -
Точечная Сварка Под Микроскопом
19 Oct, 24 -
Избавление От Нового Winlocker
19 Oct, 24 -
Кури Трубку! Мобильный Телефон…
19 Oct, 24