Если количество комментариев под статьей стремительно приближается к 1000, будьте уверены, вне зависимости от заявленной автором темы, внутри кипит перебранка: горячие точки политики, окружение кабинетными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и ник, получая личные, саркастические выпады, язвительность которых превышает едкость крови ксеноморфов, и, конечно, обязательным блюдом в таких случаях являются взаимные обвинения, которые ваш визави обсуждает с вами исключительно ради вознаграждения и/или долга.
Что, по-видимому, опасно и трудно, и на первый взгляд кажется, что не видно, и тридцать сребреников не валяются на дороге.
Самое смешное в этой ситуации то, что люди, глубоко затронутые этим синдромом, в Интернете-кто-то-неправ , часто тратят чертовски много времени и нервов, чтобы абсолютно бесплатно доказать другому столь же изумленному человеку, что он делает то же самое за деньги или под заказ .
Вы ищете здесь логику? Она ушла.
Это Интернет, детка.
Давайте возьмем один из относительно свежее дерьмо о предполагаемой территориальной дискриминации на Gitlab. Прошло 4 дня с момента публикации статьи и, конечно, обсуждение уже давно отошло от изначально заявленной темы.
Звучат следующие фразы:
Реальный человек ничего не сможет противопоставить профессиональному комментатору по подписке.Хорошо, стоп.Пользователь (такой-то) тратит на комментарии нереальное количество времени.
При этом его деятельность не имеет закономерностей, обычно свойственных обычному пользователю.
… п.
с.
но это натолкнуло меня на мысль написать парсер-анализатор для таких комментаторов) С указанием активности по часам, количеству времени в день, в неделю и т.д. Хорошая тема для статьи)
Какие закономерности «обычно присущи обычному пользователю»? Автор этой фразы в той ветке, к сожалению, уже расшифрован, так что придется идти наугад. Вопрос, который я хочу поставить перед вашим ясным взором, заключается в следующем: возможно ли вообще, используя статистические методы, хотя бы достоверно выявить эти самые закономерности, чтобы создать формальный классификатор, отличающий случайных комментаторов от профессиональных? Представьте себе — «по данным Хабра-ботометра, вы с вероятностью 76% — кремлембот».
Это будет намного круче, чем кармические набеги друг на друга.
К сожалению, моих компетенций недостаточно, чтобы даже подсказать, в каком направлении копать, чтобы решить такую проблему.
Однако вчера вечером я взломал небольшой примитивный парсер, который (благо страницы с комментариями открыты даже для неавторизованных посетителей) пока что делает две вещи - а) собирает от заданного имени пользователя статистику всех его комментариев (пока только метку времени ) и добавляет его в базу данных MySQL; б) рисует временную диаграмму, отмечая на ней события отправки комментариев, взятые из этой базы данных.
Даже без всякого сложного анализа это оказалось довольно забавно.
Вот как выглядит моя таблица комментариев.
Пояснения ниже.
Лучше всего просматривать его в отдельном окне в масштабе 100% и более.
Горизонтальная ось — время, каждый пиксель равен одной минуте, значение делений серого равно одному часу, вся горизонтальная линия равна одному дню.
Дни идут снизу вверх по вертикальной оси, цена деления на ней равна 365 дням.
В моей схеме нет ничего особенно интересного.
Видно, что я люблю спать по 7-8 часов, часто ложусь спать за полночь, иногда устраиваю многочасовые марафоны комментирования, и что активность за последний год больше или примерно равна активности за предыдущие пять лет. .
Или вот товарищ гекуб Я хранил обет молчания три с половиной года, а потом он прорвался.
Схема деятельности типичного хабракомментатора выглядит примерно так (это QtRoS )
Отчетливая «сонная лощина» слева где-то в европейской ночи и неторопливый комментарий в светлое время суток, возможно, с перерывами на полгода.
Но не все диаграммы такие скучные! Как насчет этого, например:
Чуть более чем за два года наш коллега, видимо, равномерно и постепенно переучил свои биоритмы на сон европейской ночью где-то под Срединно-Атлантическим хребтом, а затем потратил еще два года на то, чтобы вернуться к берегам Португалии.
Ты гулял? Плавать? Не могу придумать правдоподобных объяснений.
Первые три часа бодрствования комментарии летят как из пулемета, а в конце дня так и есть, раз в час заглядываю посмотреть, что происходит вот и все.
Кстати, это было 0xd34df00d .
И вот еще загадка:
Коллега продержался без единого комментария четыре с половиной года — видимо, он где-то в тайных монастырях обучался тому, как сутками не спать, судя по тому, сколько комментариев было размещено в «сонной лощине».
Но самое интересное здесь — аномалия на 16-м часу, которая сохраняется более трех лет и постепенно затухает в последний год. Перекур? Прогулки с собакой? Бег трусцой? Что еще может оторвать хабровчанина от ленты комментариев посреди рабочего дня с такой ежедневной предопределенностью? Я неряха и ленивый человек, не могу себе представить такую самодисциплину, которую уважаемый хим .
Наконец, последняя диаграмма, о которой стоит подумать:
Чётко выраженной «сонной лощины» на нём вообще нет. Лишь едва можно заметить видимое превышение количества комментариев, отправленных после полудня, над отправленными до этого.
Со всей комсомольской строгостью призываю уважаемых МТырз обезоруживайтесь перед вечеринкой и честно признайтесь, сколько бабушек и дедушек, внучек, жуков и мышей правят вашим аккаунтом и пишут комментарии.
И, наконец, коварный вопрос — может ли кого-то все это настолько заинтересовать, что он захочет разработать код парсера и/или получить дамп базы данных или доступ к ней и так далее? Мои собственные знания в области методов интеллектуального анализа и визуализации данных вряд ли превышают общую эрудицию.
Я вряд ли могу придумать что-то умнее и интереснее этих простых диаграмм.
Если кому интересно, пишите мне в телеграм (ник в профиле).
Спасибо за внимание! УПД.
Опубликовал это исходники на GitHub .
Теги: #юмор на Хабре #статистика #сон для слабаков #Хабр #Майнинг данных #Визуализация данных
-
Прямые Выводы
19 Oct, 24 -
Удаленный Сок. О Чем Вам Следует Подумать?
19 Oct, 24 -
Рунет 90Ч
19 Oct, 24 -
Готовы Ли Вы Переехать На Новую Работу?
19 Oct, 24 -
Зачем Использовать Клоны?
19 Oct, 24 -
Национальный Кабельный Стриптиз
19 Oct, 24