Для Чего Используется Tor?

Введение Я не буду распространять параноидальные сказки о том, что АНБ и ФСБ следят за всеми.

Давайте просто возьмем за основной тезис, что tor и i2p — это «наше все».

К сожалению, в контексте ТОР зачастую можно услышать только о «Шелковом пути» и детской порнографии.

Типа, рассадник, раскачивающийся и вторгающийся.

Я управляю несколькими узлами tor-exit и i2p-роутерами.

Во избежание вопросов, мой работодатель к ним не имеет никакого отношения: все эти узлы исключительно за мой счет, в мое свободное время.

Самому старшему из них почти год, младшему около 4 месяцев.

За это время я не получил ни одного сообщения о нарушении (сам работаю в хостинговом бизнесе, поэтому прекрасно представляю себе процесс реагирования на «абьюз» — его сначала отправляют клиенту).

Несмотря на отсутствие злоупотреблений, остался вопрос: почему люди используют TOR? Контроль над выходным узлом позволяет посмотреть проходящий трафик.

Понятно, что мы исключаем весь зашифрованный трафик (TLS, SSH), а также весь трафик на .

onion-ноды.

Однако, помимо прочего, мы можем посмотреть примерное распределение ресурсов по популярности.

Забегая вперед, немного упрощенный ответ на вопрос статьи:

Для чего используется TOR?

(более подробная таблица – в конце статьи) Методика измерения Мы использовали данные нескольких выходных узлов в России, Франции и Германии.

Данные собирались в течение недели с использованием pcap, со следующей строкой: пока true;do tshark -i venet0 -O http -Y http.request -T поля -e http.request.full_uri > > http_log7;rm /tmp/wire*;done (tshark глючит и периодически вылетает, для этого while/true. Вместо этого он извлекает URI из http-запросов в чистом виде) До начала сбора данных все узлы «отстоялись» примерно три недели (с момента последнего перезапуска) и для всех из них tor потреблял всю доступную ему пропускную способность.

Всего было зафиксировано 3,9 миллиона обращений, из них выкинули js/css/ico/xml файлы, осталось 3,7 миллиона.

Анализ Я набросал простой скрипт: github.com/amarao/url_prober для анализа.

Начнем с простого — топ посещений, топ доменов и т. д. Поскольку отслеживания пользователей не было, единственное, чем мы можем оперировать, — это количеством обращений.

Топ10 самых посещаемых страниц (адрес, количество, процент от общего числа): cloud.tvigle.ru//img/zero_rkm_chk.gif 193330 просмотров, 5,73% dmg.digitaltarget.ru 83905 просмотров, 2,48% ib.adnxs.com/getuid 65007 просмотров, 1,93% stat.tvigle.ru/track 42513 просмотров, 1,26% asg.vidigital.ru 31966 просмотров, 0,95% www.google-analytics.com/__utm.gif 31259 просмотров, 0,93% advombat.ru/api/id 23363 просмотров, 0,69% x.ulogix.ru/match/digitaltarget 23040 просмотров, 0,68% Blub.vidigital.ru 22726 просмотров, 0,67% tags.bluekai.com/site/5400 22488 просмотров, 0,67% Как мы видим, наиболее часто встречающиеся страницы — служебные и связанные с отслеживанием пользователей рекламными сетями — ничего интересного.

Далее идут топ11 доменов с топовыми страницами домена:

 
 cloud.tvigle.ru (243405 hits, 7.21%)
      http://cloud.tvigle.ru//img/zero_rkm_chk.gif  193330
      http://cloud.tvigle.ru/api/player/46/  18696
  photo.tvigle.ru (116943 hits, 3.46%)
      http://photo.tvigle.ru/resource/rf/flv_lst/232904/src.jpg  1696
      http://photo.tvigle.ru/resource/rf/flv_lst/232899/src.jpg  1602
  mc.yandex.ru (110897 hits, 3.28%)
      http://mc.yandex.ru/watch/219670  15381
      http://mc.yandex.ru/watch/27181436  15212
   www.tns-counter.ru  (107708 hits, 3.19%)
      http://www.tns-counter.ru/V13a***R%3Ehttp://forum.kinomania.ru/showthread.php  792
      http://www.tns-counter.ru/V13a***R%3Ehttp://brandcase.info/auto/index.php  153
 ib.adnxs.com (91854 hits, 2.72%)
      http://ib.adnxs.com/getuid  65007
      http://ib.adnxs.com/ttj  14706
  asg.vidigital.ru (79994 hits, 2.37%)
      http://asg.vidigital.ru/  31966
      http://asg.vidigital.ru/1/3414/c/v/2  7688
  bcp.crwdcntrl.net (44450 hits, 1.32%)
      http://bcp.crwdcntrl.net/5/c=2962  22309
      http://bcp.crwdcntrl.net/5/ct=y/c=2962  1377
  www.google-analytics.com  (44145 hits, 1.31%)
      http://www.google-analytics.com/__utm.gif  31259
      http://www.google-analytics.com/collect  11003
  ad.adriver.ru (44087 hits, 1.31%)
      http://ad.adriver.ru/cgi-bin/merle.cgi  22142
      http://ad.adriver.ru/cgi-bin/rle.cgi  9378
  stat.tvigle.ru (42514 hits, 1.26%)
      http://stat.tvigle.ru/track/  42513
      htthttp://stat.tvigle.ru/track/  1
 vk.com (38796 hits, 1.15%)
      http://vk.com/share.php  9811
      http://vk.com/widget_community.php  9744
      http://vk.com/al_photos.php  6214
  
Опять же в топе все баннерные сети и трекеры, за редким исключением в виде vk.com (социальная сеть) и tvigle.ru (онлайн-кинотеатр).

Ради ВК мне даже пришлось сделать топ11, а не топ10. Все будет работать не так.

Что люди _смотрят_? Легенда гласит, что должен быть экстремизм, самоубийства, наркотики, кошки, порнография, детская порнография, оппозиционеры и прочие запрещенные вещи.

Ну, верхний метод не работает. Давайте поступим по-другому: Возьмем все ресурсы, на доменах которых было не менее нескольких десятков обращений (например, 10), выберем из них около 300 и для каждого из них сделаем выборку страниц, которые были посещены хотя бы несколько раз (более 1).

.

Давайте возьмем хотя бы 4 таких страницы (для каждого соответствующего домена) и попробуем классифицировать их вручную.

Это даст нам статистическое представление о том, какие сайты посещали пользователи.

Затем начинается веселье.

Я вручную просмотрел эти 300 случайно выбранных ссылок.

Сами ссылки при минимальной модерации (забитые URL в случае клинической опасности удаления) можно просмотреть здесь .

Этот процесс занял у меня около недели.

Эта задача оказалась сложнее, чем кажется, ведь как можно классифицировать бразильский сайт без англоязычной версии, посвященной чему-то неизвестному? К тому же, вы не поверите, как скучно смотреть на неинтересные сайты.

Сначала я хотел сделать выборку из 500 сайтов, но к двухсотому сайту я полностью выдохся, так что три сотни — это мой личный героический подвиг.

Несмотря на то, что просмотрено всего 300 результатов, это случайная выборка «посещаемых» узлов в течение недели, нормированная по доменам — то есть кратковременные всплески популярности в выборке не должны были существенно повлиять на результат. Результаты классификации приведены ниже.

Они могут показаться слишком большой группой, но мне действительно не было интересно классифицировать разные интернет-магазины тортов и сумочек.

Опубликованы полные ссылки на то, что мы рассмотрели, а также сценарий для случайной выборки.

здесь .

Категория Процент
Обычная порнография 11.0%
Корпоративные сайты 11.0%
Интернет-магазины 7.3%
Новостные сайты 7.0%
API на основе HTTP 7.7%
Блоги, форумы, BBS 6.7%
Рекламные и баннерные сети 5.7%
Фильмы, видео (кроме трекеров) 3.7%
Социальные медиа 3.3%
Услуги хостинга 3.3%
Программное обеспечение 3.0%
Попытки взлома веб-сайтов 3.0%
Легковые автомобили 3.0%
Хостинг изображений или файлов 2.7%
Игры 2.7%
Страницы для поисковых систем (SEO) и лендинга.

2.3%
Страницы с различной (невинной) информацией.

2.3%
Спорт и путешествия 1.7%
Недвижимость 1.7%
Хобби 1.7%
Религия и эзотерика (в том числе культовые места) 1.3%
Прочее (правительство, знакомства, мгновенные сообщения, торренты, по 1 штуке) 1.3%
Музыка и аудиокниги 1.3%
Сайты с вредоносным ПО и откровенно мошеннические 1.3%
Сайты вакансий 1.3%
Детская порнография 0.7%
Веб-почта 0.7%
Сайты медицинских организаций 0.7%
Образовательные сайты 0.7%
Примечания: в категории «корпоративные сайты» и «интернет-магазины» вошли только сайты с невинным контентом, к которым нет претензий.

Поскольку я не встретил ни одного сайта с нелегальными товарами, категорий «наркосайты», «поддельные документы», «оружие» и «работорговля» в приведенном выше списке нет.

выводы

  • Большинство интернет-ресурсов (его белая часть), посещаемых через TOR, не имеют криминальной составляющей и мало чем отличаются от обычного серфинга.

  • Значительная часть трафика посвящена вопросам размножения homo sapiens.
  • В белом интернете еще остался CP, но его доля посещений меньше процента.

  • TOR может и используется для проведения атак на веб-сайты.

  • Наркотических и запрещенных веществ, оружия, взрывчатых веществ и т.п.

    обнаружено не было.

  • В ТОРе почти нет политической активности.

Я немного недоумевал, почему люди используют TOR для заказа тортов в интернет-магазине, но коллеги с работы рассказали мне, что некоторые включают TOR на домашнем роутере и используют его «для всего», то есть обычного бытового трафика домашнего пользователя.

проходит через ТОР.

Еще раз повторю, учитывался только http-трафик, доступ к которому осуществляется с exit-нод. Все луковые сайты и не-http трафик в белом интернете остались за кадром.

P.S. Если вы не используете HTTPS, то любой оператор выходного узла сможет увидеть весь ваш «белый» трафик, включая куки и пароли.

UPD: В связи с многочисленными вопросами по поводу невключения сайтов .

onion в выборку, комачи предложил ссылку на публикацию www.dailydot.com/politics/tor-dark-net-study-size , в котором говорится, что скрытые сайты занимают около 3,4% общего трафика.

Теги: #Tor #детская порнография #детская порнография #вредоносное ПО #анонимность #одноранговая #информационная безопасность #i2p

Вместе с данным постом часто просматривают: