Фееричная история, ставшая сегодня самой популярной новостью дня в Интернете, вызывает массу недоразумений.
Даже люди, близкие к веб-технологиям, не всегда адекватно оценивают произошедшее, не говоря уже об остальном онлайн-сообществе, часть которого уже объявила произошедшее вирусной рекламой.
Попробую развеять туман конспирологии в виде ответов на вопросы, заданные в комментариях.
Вопрос: Как поисковая система вдруг получила доступ к СМС-текстам? О: Да, они всегда были доступны каждому по замыслу.
Напомню, что речь идет о анонимный отправка СМС с сайта.
Конечно, для этого не обязательно быть абонентом Мегафона и не нужно регистрироваться на портале – в этом и прелесть сервиса, особенно когда вам дорога каждая секунда.
Однако разработчики не поленились предоставить посетителю минимальное удобство: при каждой попытке отправки генерируется страница со случайным адресом, на которой отображается текст СМС и статус его доставки.
Это то, что может прочитать каждый, включая роботов.
Вопрос: Нет ли способа ограничить доступность этих страниц, не усложняя при этом жизнь пользователям? О: Конечно, есть.
Вот лишь самые очевидные: привязка к сессионному cookie в браузере, жесткое ограничение времени жизни страницы и, наконец, robots.txt, запрещающий индексацию этих страниц поисковыми системами.
Файл robots.txt был добавлен только во время сегодняшнего экстренного латания дыр, что подтверждено официальный ответ яндекса .
Почему разработчики об этом не подумали? У меня есть теория на этот счет: невнимательность :) Вопрос: Почему Google ничего не видит? О: Чтобы индексировать страницы, необходимо сначала о них узнать.
Как правило, поисковые системы переходят на новые страницы, используя ссылки с уже известных им страниц, которых нет в распоряжении Google. Однако несколько страниц он все же проиндексировал, но по сравнению с Яндексом это было не так впечатляюще.
Вопрос: А как их нашел Яндекс? О: Это Яндекс, все можно найти.
Самая правдоподобная версия: код, установленный на сайте «Яндекс.
Метрика» .
Заметание следов В ходе аварийных работ Мегафон от него тоже избавился, но на данный момент он все еще доступен в Google кэш от 5 июля где он присутствует. Адреса всех посещенных на сервисе страниц стали известны Яндексу — в этом принцип работы Метрики.
Любопытно, что код Google Analytics там тоже присутствовал, но поисковики использовали полученную информацию по-разному.
Я бы не назвал это провалом Мегафона - было нормальное использование хороших инструментов.
А чтобы скрыть непубличные данные, повторюсь, нужно использовать robots.txt, привязку сессии к браузеру, авторизацию на сайте и другие способы.
Вопрос: Почему индексируется так мало сообщений? О: Во-первых, напомню, что это только сообщения, отправленные с сайта, их не отправляют оттуда миллионами, как с телефонов.
Теперь немного о поисковых системах.
Яндекс никогда не пытается скачать весь сайт, если количество страниц десятки или сотни тысяч, и если только речь не идет о высокоцитируемой Википедии.
Страницы загружались постепенно, непредсказуемым образом выныривая из переполненной очереди, так что к моменту прихода робота они уже могли быть удалены Мегафоном.
Непонятно, какая часть сообщений в итоге попала в поиск, но ее точно было немного.
Ну а старые страницы просто уходили из индекса при очередных обновлениях кэша — мусор в поиске долго не живет. Вопрос: Почему все сообщения такие интересные? Где односложные «Ок», «Да», «Нет»? Где «Буду через 5 минут» и «Занят, перезвоню»? Почему мало транслитерации и много ошибок? О: И опять же есть специфика как сервиса, так и поиска.
Сайт не используется на ходу; он идеально подходит для длинных SMS-сообщений.
С него тоже неудобно отвечать - в телефон пришел вопрос.
Транслитерация не нужна: не влезло в одно сообщение — напишите второе, это халява.
Что ж, анонимность провоцирует многое: некоторые из этих текстов вполне могут оказаться глупыми розыгрышами и подставами.
Но даже если шаблонных сообщений будет 99%, Яндекс покажет на первых страницах ровно 1% «интересных» с его точки зрения.
Вот как работает ранжирование для запроса, который ограничен сайтом, но не содержит текста.
Цитируемость всех страниц равна нулю, поведенческие факторы тоже те же, остается только контент: чем больше необычных (выразительных, ошибочных) слов, тем выше его уникальность, тем он ценнее.
Всё это то, что вынесла из результатов поиска ветка Башорг.
Вопрос: Да, это определенно вирус! Не бывает плохого пиара.
О: Кажется, здесь все разбираются в маркетинге, как и в футболе :) Процитирую комментарий Никетас из темы, которая вошла в черновики:
Мне кажется, даже застав девушку в постели с другим парнем, ты скажешь: «Это ты меня разыграл, шутник!» и пойди поставь чаю на кухню.Репутации оператора нанесен непоправимый ущерб, Следственный комитет РФ начал расследование утечки, а пострадавшие абоненты, переписка которых стала достоянием общественности, собираются подать иск с требованием денежной компенсации.
Какая путаница должна быть у вас в голове, чтобы увидеть в этом выгоду для Мегафона? Новых подписчиков такой неудачей не привлечешь, а вот старых легко потерять, помимо потери репутации и денег.
UPD (20.07.2011): Обновил информацию в Яндекс.
Метрике, так как были доказательства того, что она есть на сайте (спасибо w0den ).
Свой ответ про пиар я скопировал из комментариев.
Теги: #Яндекс #поиск #мегафон #утечка #информационная безопасность
-
Разговор Уолдена
19 Oct, 24 -
Как Сэкономить На Мобильной Разработке?
19 Oct, 24 -
Блазор: Нужен Ли Нам .Net В Сети?
19 Oct, 24