Данные Всех Стран, Не Объединять

Приятно, когда диаграмма помимо новых созвездий содержит что-то похожее на зависимость.

В этом случае мы строим модель, которая хорошо объясняет взаимосвязь между двумя переменными.

Но исследователь должен понимать не только то, как работать с данными, но и реальную историю, стоящую за ними.

В противном случае легко ошибиться.

Я расскажу вам о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, которые могут перевернуть общение с ног на голову.

Данные всех стран, не объединять

Давайте рассмотрим две условные переменные X и Y. Построив диаграмму, мы увидим облако, четко вытянутое от левого нижнего угла к правому верхнему, как на рисунке выше.

В эту картину прекрасно вписывается линейная регрессия, которая с относительно небольшой ошибкой поможет нам спрогнозировать значения: чем больше X, тем больше Y. Задача выполнена.

С первого взгляда.

Более опытный коллега порекомендует добавить на диаграмму разбивку по когортам: например, по странам.

Следуя его совету, мы увидим, что связь действительно есть, но она диаметрально противоположная – внутри одной страны чем больше Х, тем меньше Y. Это парадокс Симпсона: явление, при котором объединение нескольких групп данных с одинаковой зависимостью от направления приводит к изменению направления.

Пример 1: Дискриминация по признаку пола в Беркли

Самый известный пример парадокса Симпсона в реальном мире — это провал при поступлении в Беркли в 1973 году.

Среди исследователей ходит слух, что над университетом даже судили, однако убедительных доказательств суда в Интернете найти не удалось.

Вот как выглядит статистика приема в университет за 1973 год:

Пол	Приложения	Принял
Люди	8442	3738 (44%)
Женщины	4321	1494 (35%)

Разница существенная.

Слишком большой, чтобы быть случайным.

Однако если разбить данные по отделам, картина изменится.

Исследователи обнаружили, что причина разницы заключалась в том, что женщины подали заявки на более конкурентоспособные области.

Кроме того, установлено, что из 85 факультетов 6 дискриминируют женщин в пользу и только 4 – против.

Разница возникает исключительно из-за различий в размерах выборки и масштабах конкуренции между департаментами.

Покажу на примере двух факультетов.

Факультет	Пол	Приложения	Принял
А	Люди	400	200 (50%)
А	Женщины	200	100 (50%)
Б	Люди	150	50 (33%)
Б	Женщины	450	150 (33%)
Общий	Люди	550	250 (45%)
Общий	Женщины	650	250 (38%)

На оба факультета принимаются равные доли женщин и мужчин.

Однако, поскольку абсолютное количество мужчин было больше на факультетах с более высокими показателями приема, при объединении данных оказывается, что в целом уровень приема мужчин выше.

Пример 2. Несбалансированный эксперимент A/B

Представьте, что вы проводите эксперимент A/B, чтобы повысить коэффициент конверсии вашей целевой страницы.

Эксперимент проводился два дня, но в первый день сломался распределитель посетителей, и вариант Б получил больше посетителей.

На второй день эта проблема была устранена.

В результате получились следующие цифры:

	А	Б
	Посетители	Конверсии	Посетители	Конверсии
1 день	400	30 (7.5%)	2000	140 (7%)
День 2	1000	60 (6.0%)	1000	55 (5.5%)
Общий	1400	90 (6.4%)	3000	195 (6.5%)

В любой день вариант А имел более высокий коэффициент конверсии, но в целом вариант Б выигрывает. Это произошло потому, что в день с более высокой конверсией у варианта Б было больше трафика.

В этом примере неопытный исследователь развернет вариант Б для всего трафика, тогда как на самом деле коэффициент конверсии увеличится, если он воспользуется вариантом А.

Пример 3. Влияние посещения страницы на конверсию

На каждом веб-сайте есть страница, которая мотивирует людей покупать больше, чем другие.

Допустим, мы создаем систему оценки посетителей и подбираем для нее факторы.

У нас есть страница «О нас», и мы предполагаем, что ее посещение увеличивает вероятность конверсии.

Давайте посмотрим на данные.

	Посетил страницу
Конверсия	Нет	Да
Нет	4000	4800
Да	400	320
Коэффициент конверсии	9%	6%

На первый взгляд все очевидно — коэффициент конверсии у тех, кто посетил страницу, ниже на целых 3 процентных пункта, а значит, страница снижает вероятность конверсии.

Но если мы разобьем данные на две наиболее важные когорты в онлайн-маркетинге — пользователей настольных компьютеров и мобильных устройств, — мы увидим, что в каждой из них, по сути, вероятность конверсии увеличивается с количеством посещений страницы.

	мобильный	Рабочий стол
	Посетил страницу	Посетил страницу
Конверсия	Нет	Да	Нет	Да
Нет	1600	4200	2400	600
Да	40	180	360	140
Коэффициент конверсии	2%	4%	13%	19%

Мы предположили, что посещение страницы влияет на конверсию.

На практике в игру вступила третья переменная: платформа пользователя.

Поскольку он влияет не только на конверсию, но и на вероятность посещения страницы, в агрегированном состоянии он исказил данные таким образом, что привел нас к выводам, противоположным реальному поведению пользователей.

Данные всех стран, не объединять

Что делать

При анализе данных вам необходимо понимать историю, стоящую за этим: что происходит в реальном мире, как это измерялось и переводилось в данные.

Следовательно, специалист по данным в отделе маркетинга должен знать основы маркетинга, а специалист по данным в нефтегазовой отрасли должен кое-что знать о горнодобывающей промышленности.

Это поможет избежать большого количества потенциальных ошибок, не последней из которых является ошибка агрегирования, вызванная парадоксом Симпсона.

Следующие характеристики данных обычно приводят к парадоксу Симпсона:

Наличие значимых когорт, способных влиять на значения зависимой (Y) и независимой (X) переменных;
Когортный дисбаланс.

Каждый случай требует индивидуального подхода.

Считать, что все данные всегда нужно разбивать на когорты – тоже неправильный подход, ведь зачастую именно агрегированные данные позволяют построить наиболее точную модель.

Кроме того, любые данные можно разбить таким образом, чтобы получить ту связь, которую нам хотелось бы получить.

Правда, никакого практического применения это не будет иметь — когорты должны быть обоснованы.

Для онлайн-маркетинга одним из важнейших выводов является необходимость проверки корректности работы сплиттера в A/B-экспериментах.

Группы пользователей в каждом тестовом примере должны быть примерно одинаковыми.

Речь идет не только об общем количестве пользователей, но и об их структуре.

При подозрении на проблемы когорты следует сначала проверить на наличие следующих характеристик:

Демографические характеристики;
Географическое распределение;
Источник трафика;
Тип устройства;
Время посещения.

Оригинальная статья, описывающая дело Беркли: П.

Дж.

Бикель, ?.

А.

Хаммель и Дж.

В.

О'Коннелл (1975) «Сексуальная предвзятость при поступлении в аспирантуру: данные Беркли» Теги: #Машинное обучение #математика #Статистика в ИТ #Интеллектуальный анализ данных #статистика #Парадокс Симпсона

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Данные Всех Стран, Не Объединять

Пример 1: Дискриминация по признаку пола в Беркли

Пример 2. Несбалансированный эксперимент A/B

Пример 3. Влияние посещения страницы на конверсию

Что делать

Сегодня Эксперт Расскажет Вам, Чем Ssd Отличается От Традиционного Жесткого Диска.

Бесплатная Mmo — Лучший Способ Играть

Интервью С Экспертами - Часть 2

Bloomberg: Создатель Android Энди Рубин Выпустит Смартфоны Под Брендом Essential

Настройка Звука: Метаматериальные «Линзы» Для Управления Звуковым Полем

Заражение Кеша Dns-Серверов Интернет-Провайдера Путем Манипулирования Dns-Ответами От Законных, Авторитетных Dns-Серверов.

Разделение Чата И Поиск В Telegram

Семинар По Вредоносному Коду На Javascript

Forbes: Балмер, Без Сомнения, Худший Американский Генеральный Директор

Chromium: Шестой Обзор Проекта И 250 Ошибок

Автор Статьи

Роман Иванов

Интересно

Sigbop Signature Solutions — Программное Обеспечение Для Электронного Маркетинга...

Лазарь: Кто Стоит За Атаками На Систему Банковских Переводов Swift...

Polymer (Полимер) - Программное Обеспечение Для Предотвращения Потери Данных...

Как Работают Pr-Компании...

Ипотечные Лидеры, Подход К Увеличению Продаж...

Как Выбрать Лучшую Партнерскую Программу Казино...

Почему Употребление Горячего Шоколада Может Сделать Вас Лучше...

Dima Manisha