Что Не Так С Выборкой

Выборочные данные существенно снижает нагрузку на вычислительные мощности.

Но как можно судить о количестве дырок в сыре по одному куску? Что, если бы вы могли легко потерять 20 000 долларов или больше в день из-за выборки? Часто выборка мешает точному анализу потока данных, о чем свидетельствует случай под катом.



Что не так с выборкой

Выборка – это метод формирования репрезентативной выборки, позволяющий сделать выводы о численности населения.

Репрезентативность можно обеспечить путем случайного выбора элементов из совокупности.

Это означает, что каждый посетитель сайта будет иметь одинаковые шансы быть включенным в отчет. В большинстве случаев это не влияет на форму графика.

Разница значений не будет заметна при переводе в проценты.

Но выборка может повлиять на статистически значимые различия.

Чтобы выборочные данные адекватно отражали выводы обо всей совокупности, в выборке изначально не должно быть каких-либо аномалий: выбросов или пробелов.

Но от них никто не застрахован, а поврежденные данные могут быть искажены.



Что не так с выборкой

Более того, они могут даже быть скрыты маркетинговым эффектом, как описано здесь .



Почему используется выборка?

Google и Яндекс используют этот прием, чтобы снизить нагрузку на свои серверы.

Отчет формируется гораздо быстрее, но может ввести маркетолога в заблуждение.



Кейс: как можно потерять деньги из-за семплирования

Компания X принимает в среднем 2 миллиона пользователей в день.

В этом случае Google уже использует выборку данных.

Каждый день компания покупает 50 тысяч пользователей по $2 за каждого.

Таким образом, на рекламу в день тратится $100 000. Средний коэффициент конверсии платного трафика при регистрации составил 25% по данным Google Analytics. При проверке в сервисе t.onthe.io , где не используется выборка, средняя конверсия составила 20 %.



Что не так с выборкой

Это означает, что некоторые данные были потеряны или искажены во время выборки.

Из-за этого компания X теряла 20 000 долларов в день.



Как избежать выборки в GA

Выборочные данные не всегда объективно отражают ситуацию.

Существует несколько способов избежать выборки.



1. Премиум аккаунт в GA
Если у вас есть премиум-аккаунт, Google предоставляет чистые данные о до 1 миллиарда посещений в месяц.

Но аккаунт стоит 150 000 долларов в год, и есть более дешевые способы.



2. Уменьшение временного интервала выборки
Если в отчете используется большой период времени (например, отчет за год), то Google, скорее всего, выберет выборку этих данных.

Чтобы этого не произошло, можно разбить временной интервал на более мелкие части, например на месяц.

А потом одно удовольствие лепить все месяцы вручную.



3. Повышение точности
Повысить точность выборки можно в настройках GA при формировании отчета.

Ошибка представления данных уменьшится, но не сведется к нулю.



4. Сегментация данных с помощью представлений
Настройте несколько представлений данных.

Например, на сайте 10 основных разделов, тогда можно сделать 8 представлений данных, каждое из которых будет получать информацию со своего канала.

В целом сайт посещают те же 2 миллиона пользователей в месяц.

Каждый раздел получает 200 000 посещений.

Получается, что данные не должны выбираться по каждому разделу.

Минус в том, что аналитику всего сайта снова придется собирать вручную.

Вы также можете использовать инструмент Google Analytics Query Explorer или сценарии R. Узнайте больше об этих методах Здесь .



Сервисы, которые не выполняют выборку данных

Многие службы веб-аналитики не выполняют выборку данных.

К ним относятся t.onthe.io , стат, что , либрато , Сумологический .



Абстрактный

  1. Выводы, основанные на выборочных данных, могут привести к потере информации или денег.

  2. Избавиться от выборки в GA можно несколькими способами: уменьшив временной интервал, сегментировав данные, настроив точность.

  3. Сервисы, не осуществляющие выборку данных: t.onthe.io, statthat, Librato, Sumologic.
Теги: #выборка #аналитика #аналитика трафика #Анализ и проектирование систем
Вместе с данным постом часто просматривают: