Faq По Утекшим Sms-Сообщениям С Сайта Мегафона

Фееричная история, ставшая сегодня самой популярной новостью дня в Интернете, вызывает массу недоразумений.

Даже люди, близкие к веб-технологиям, не всегда адекватно оценивают произошедшее, не говоря уже об остальном онлайн-сообществе, часть которого уже объявила произошедшее вирусной рекламой.

Попробую развеять туман конспирологии в виде ответов на вопросы, заданные в комментариях.

Вопрос: Как поисковая система вдруг получила доступ к СМС-текстам? О: Да, они всегда были доступны каждому по замыслу.

Напомню, что речь идет о анонимный отправка СМС с сайта.

Конечно, для этого не обязательно быть абонентом Мегафона и не нужно регистрироваться на портале – в этом и прелесть сервиса, особенно когда вам дорога каждая секунда.

Однако разработчики не поленились предоставить посетителю минимальное удобство: при каждой попытке отправки генерируется страница со случайным адресом, на которой отображается текст СМС и статус его доставки.

Это то, что может прочитать каждый, включая роботов.

Вопрос: Нет ли способа ограничить доступность этих страниц, не усложняя при этом жизнь пользователям? О: Конечно, есть.

Вот лишь самые очевидные: привязка к сессионному cookie в браузере, жесткое ограничение времени жизни страницы и, наконец, robots.txt, запрещающий индексацию этих страниц поисковыми системами.

Файл robots.txt был добавлен только во время сегодняшнего экстренного латания дыр, что подтверждено официальный ответ яндекса .

Почему разработчики об этом не подумали? У меня есть теория на этот счет: невнимательность :) Вопрос: Почему Google ничего не видит? О: Чтобы индексировать страницы, необходимо сначала о них узнать.

Как правило, поисковые системы переходят на новые страницы, используя ссылки с уже известных им страниц, которых нет в распоряжении Google. Однако несколько страниц он все же проиндексировал, но по сравнению с Яндексом это было не так впечатляюще.

Вопрос: А как их нашел Яндекс? О: Это Яндекс, все можно найти.

Самая правдоподобная версия: код, установленный на сайте «Яндекс.

Метрика» .

Заметание следов В ходе аварийных работ Мегафон от него тоже избавился, но на данный момент он все еще доступен в Google кэш от 5 июля где он присутствует. Адреса всех посещенных на сервисе страниц стали известны Яндексу — в этом принцип работы Метрики.

Любопытно, что код Google Analytics там тоже присутствовал, но поисковики использовали полученную информацию по-разному.

Я бы не назвал это провалом Мегафона - было нормальное использование хороших инструментов.

А чтобы скрыть непубличные данные, повторюсь, нужно использовать robots.txt, привязку сессии к браузеру, авторизацию на сайте и другие способы.

Вопрос: Почему индексируется так мало сообщений? О: Во-первых, напомню, что это только сообщения, отправленные с сайта, их не отправляют оттуда миллионами, как с телефонов.

Теперь немного о поисковых системах.

Яндекс никогда не пытается скачать весь сайт, если количество страниц десятки или сотни тысяч, и если только речь не идет о высокоцитируемой Википедии.

Страницы загружались постепенно, непредсказуемым образом выныривая из переполненной очереди, так что к моменту прихода робота они уже могли быть удалены Мегафоном.

Непонятно, какая часть сообщений в итоге попала в поиск, но ее точно было немного.

Ну а старые страницы просто уходили из индекса при очередных обновлениях кэша — мусор в поиске долго не живет. Вопрос: Почему все сообщения такие интересные? Где односложные «Ок», «Да», «Нет»? Где «Буду через 5 минут» и «Занят, перезвоню»? Почему мало транслитерации и много ошибок? О: И опять же есть специфика как сервиса, так и поиска.

Сайт не используется на ходу; он идеально подходит для длинных SMS-сообщений.

С него тоже неудобно отвечать - в телефон пришел вопрос.

Транслитерация не нужна: не влезло в одно сообщение — напишите второе, это халява.

Что ж, анонимность провоцирует многое: некоторые из этих текстов вполне могут оказаться глупыми розыгрышами и подставами.

Но даже если шаблонных сообщений будет 99%, Яндекс покажет на первых страницах ровно 1% «интересных» с его точки зрения.

Вот как работает ранжирование для запроса, который ограничен сайтом, но не содержит текста.

Цитируемость всех страниц равна нулю, поведенческие факторы тоже те же, остается только контент: чем больше необычных (выразительных, ошибочных) слов, тем выше его уникальность, тем он ценнее.

Всё это то, что вынесла из результатов поиска ветка Башорг.

Вопрос: Да, это определенно вирус! Не бывает плохого пиара.

О: Кажется, здесь все разбираются в маркетинге, как и в футболе :) Процитирую комментарий Никетас из темы, которая вошла в черновики:

Мне кажется, даже застав девушку в постели с другим парнем, ты скажешь: «Это ты меня разыграл, шутник!» и пойди поставь чаю на кухню.

Репутации оператора нанесен непоправимый ущерб, Следственный комитет РФ начал расследование утечки, а пострадавшие абоненты, переписка которых стала достоянием общественности, собираются подать иск с требованием денежной компенсации.

Какая путаница должна быть у вас в голове, чтобы увидеть в этом выгоду для Мегафона? Новых подписчиков такой неудачей не привлечешь, а вот старых легко потерять, помимо потери репутации и денег.

UPD (20.07.2011): Обновил информацию в Яндекс.

Метрике, так как были доказательства того, что она есть на сайте (спасибо w0den ).

Свой ответ про пиар я скопировал из комментариев.

Теги: #Яндекс #поиск #мегафон #утечка #информационная безопасность

Вместе с данным постом часто просматривают: