Как Выбрать Уровень Статистической Значимости Для Теста Ab И Как Интерпретировать Результат

Также опубликовано в отдельный авторский блог .

AB-тесты сейчас использует, пожалуй, каждый второй менеджер продукта, но не всегда понятно, как интерпретировать результат теста и какой уровень статистической значимости использовать.

Если мы используем его слишком высоко, тесты возможных улучшений потерпят неудачу, хотя на самом деле улучшения есть.

Если мы будем использовать его слишком мало, мы часто будем получать «подтверждения» ложных улучшений.

Независимо от выбранного уровня значимости, принимая решения по результатам AB-тестов, мы время от времени будем совершать ошибки и наносить вред бизнесу.

При выборе уровня статистической значимости тестов (или что то же самое – граничных р-значений), мы можем ограничить количество ошибок и балансировать между пользой от оправданно успешных экспериментов и ущербом от ошибочно успешных экспериментов.

.



Регистрация по номеру телефона

Представьте, что вы менеджер по продукту в корпорации, занимающейся веб-сервисами.

Вы работаете над увеличением количества регистраций, внимательно продумываете этапы прихода новых пользователей, замечаете, что многие отваливаются на этапе ввода почты и решаете попробовать заменить почту на номер телефона.

Хотя это не совсем общепринято и требует отправки платного SMS, современные пользователи не очень любят электронную почту и часто регистрируются прямо со своего телефона.



Как выбрать уровень статистической значимости для теста AB и как интерпретировать результат

Что ж, это вполне традиционная задача продакт-менеджера.

Мы современная компания и прежде чем принимать важные решения, особенно требующие платных СМС, мы стараемся проверить, действительно ли наши идеи улучшают ситуацию.

Соответственно, конструируем два варианта регистрации: старый по электронной почте и новый по номеру телефона.

Мы показываем каждый вариант случайно выбранным пяти процентам анонимных посетителей сайта, а затем измеряем, какой процент посетителей успешно ввел свой адрес электронной почты/номер телефона и активировал свою учетную запись, скажем, в течение суток с момента регистрации.



Как выбрать уровень статистической значимости для теста AB и как интерпретировать результат



Планирование эксперимента

Допустим, мы запланировали эксперимент с любым из обычных калькуляторов для оценки необходимого количества пользователей, сделали все тщательно, выбрали одностороннюю гипотезу (нас интересуют только улучшения) и.

какой уровень статистической значимости нам выбрать? Довольно часто компании имеют «обычный» уровень важности, выбранный просто потому, что так принято – скажем, 95%.

Однако не будет ли в этом случае уместным уровень значимости 90% или даже 80%? Ведь нам бы не хотелось отказываться от полезного улучшения только потому, что мы якобы не совсем уверены в улучшении – ведь никогда нельзя быть уверенным на сто процентов.



Что на самом деле означают результаты

Допустим, мы выбрали значимость 90%, опасаясь, что при более высоком значении тест может провалиться, но никто вокруг нас, похоже, не использует более низкое значение.

Запустили тест, он проработал ровно пять полных недель (полных - для сглаживания возможных различий в поведении пользователей в будние и выходные дни), каждый вариант посмотрело примерно 10 000 человек, тест завершился успешно, калькулятор сообщил что-то вроде «Значение p равно 0,07. Вы можете быть на 90% уверены, что этот результат является следствием внесенных вами изменений».

Что это на самом деле означает? Один простой способ интерпретировать тест AB — действовать в обратном направлении.

На самом деле, мы никогда не можем быть полностью уверены, что предложение ввести номер телефона в среднем приносит больше регистраций.

Всегда есть вероятность, что в течение длительного периода времени регистрация по телефону приведет столько же пользователей, сколько регистрация по электронной почте, или даже меньше, но за те недели, когда мы проводили тест, случайные колебания привели к большему количеству регистраций по телефону, чем по электронной почте.



Если регистрация по телефону не лучше, они все равно случайным образом выиграют некоторые тесты.

P-значение теста AB просто показывает насколько редкое событие мы наблюдаем, если просьба ввести номер телефона на самом деле (в течение длительного периода времени) ничего не улучшила и, возможно, даже ухудшил ситуацию.

Представьте себе, что в такой печальной ситуации мы бы провели не один, а сотню одинаковых AB-тестов: каждый на те же пять недель, каждый по 10 000 посетителей на вариант. В большинстве из этих сотен тестов вариант по телефону принесет меньше регистраций, чем вариант по электронной почте, или такое же количество, как вариант по электронной почте.

Однако в некоторых тестах вариант с телефоном может принести немного больше регистраций.

Наблюдаемое значение p 0,07 просто означает, что если вариант по телефону на самом деле не лучше, чем по электронной почте , то он мог бы опережать электронную почту на столько же или даже сильнее, чем мы наблюдаем в семи тестах из ста.



Как выбрать уровень статистической значимости для теста AB и как интерпретировать результат

Выбор уровня статистической значимости показывает, насколько редкой должна быть наблюдаемая разница в конверсиях между вариантами по телефону и электронной почте, чтобы мы могли распознать такую разницу как плохо объясненное случайное колебание.

и решил перейти на телефонные номера.



Цена ошибочной победы

Ключевой момент интерпретации заключается в том, что даже если мы будем все выполнять аккуратно, без технических и логических ошибок, то наши AB-тесты все равно время от времени обязательно будут «подтверждать» ложные гипотезы .

Если мы принимаем решения на основе тестов, мы время от времени будем совершать ошибки.

Мы можем лишь ограничить количество ошибок, выбрав тот или иной уровень статистической значимости.

Если ошибиться очень опасно (без регистрации пользователей мы ничего продавать не будем!), выбираем высокий уровень значимости.

Однако высокий уровень значимости не достается даром: продолжительность тестов придется увеличить очень существенно, иначе уверенно победить смогут только варианты, дающие очень существенный прирост. В результате мы либо упустим небольшие возможности для улучшения, либо успеем провести очень мало экспериментов.

В общем, пользу от теста и цену возможных ошибок при заданном уровне значимости можно оценить с помощью очень простых вычислений.

В примере ниже мы рассчитываем результат в новых пользователях, но несколько более сложным способом можем оценить ожидаемые результаты в деньгах.

Используя наши знания предметной области и историю предыдущих улучшений, предположим, что успешный переход на телефонную регистрацию увеличит конверсию на 5 процентов, а если мы по ошибке перейдём на телефонную регистрацию, то, возможно, половина посетителей не перейдет. смогут или не захотят зарегистрироваться (откуда именно у нас такие предположения мы расскажем ниже).

Среднее количество регистраций в неделю 2000
Насколько больше пользователей может привлечь регистрация по телефону по сравнению с регистрацией по электронной почте? 5%
На сколько меньше пользователей может привлечь телефонная регистрация в случае ошибки? 50%
Если все в порядке, то год работы с регистрацией по СМС принесет дополнительных пользователей.

52 * 2000 * 5% = 5200
Если мы по ошибке внедрили СМС-регистрацию, то через год у нас не будет достаточного количества пользователей.

52 * 2000 * 50% = 52000
Выбранный пороговый уровень значимости 95%
Если бы никаких улучшений не было сделано, пользователи появились бы в течение года.

52 * 2000 = 104000
Если бы подобные эксперименты проводились постоянно и решения принимались с одинаковым уровнем значимости, то за год средний эксперимент мог бы привлечь дополнительных пользователей.

95% * 5200 - (100%-95%) * 52000 = 2340
Выгоды от среднего аналогичного эксперимента в процентах от роста аудитории = 2340 / 104000 = 2.25%
Ээтот знак можно найти в Google Таблицах и скопируйте его себе .



Выбор уровня статистической значимости

Где же перед началом эксперимента в такую таблицу можно вставить ожидаемую выгоду от достаточно выигрышного теста (5% в нашем примере) и возможный вред в случае ошибки (50% в нашем примере)? Лучше всего, конечно, опираться на историю подобных изменений.

Если это не первый эксперимент по улучшению воронки регистрации, а большинство предыдущих увеличивали конверсию на пару процентов, то вряд ли даже очень значимая идея улучшится более чем на 5-10%.

Если истории подобных внедрений нет или она незначительна, то лучшего метода, чем экспертные оценки и опасения, я не знаю.

Тем не менее, вряд ли половина потенциальных пользователей не зарегистрируются, потому что не хотят/не могут вводить свой адрес электронной почты, но с радостью введут свой номер телефона.

В лучшем случае переход на телефонный номер увеличит долю владельцев регистрации с 7,7% до, возможно, 8% (улучшение на 5%).

Но если мы ошибаемся и пользователи действительно не хотят доверять нам номер телефона, то потерять половину регистраций можно/ужасно.

Цифры в таблице подобраны таким образом, что при значимости 90% эксперимент не имеет смысла — мы будем слишком часто ошибаться, проводя подобные эксперименты снова и снова.

При значимости 95% кажется, что в среднем такой эксперимент может принести пользу, но не очень большую — всего пару процентов дополнительных пользователей в год после внедрения улучшения.

В таком случае, стоит ли вообще проверять идею телефонной регистрации экспериментом, или лучше принять решение, основываясь на интуиции начальства, или просто поступить, как делают наши конкуренты?

Не уверен - проверь строже

Ну а если вчера уволили всю предыдущую сервисную команду, мы очень мало знаем о рынке и потенциальных пользователях, то действительно, наши идеи могут иметь мало смысла и было бы неплохо тестировать идеи на предмет улучшений более тщательно.

Для примера занесем в таблицу невероятно высокие опасения: 99% потеря регистраций в случае ошибки (у нас в стране неожиданно входящие СМС оказались платными, а регистрироваться по СМС никто не хочет), и прикинем возможен положительный эффект всего на 2-3%.

Даже в такой печальной ситуации, когда мы не уверены ни в рынке, ни в своих идеях, если мы поднимем статистическую значимость на 99%, волна подобных экспериментов все равно принесет заметную пользу.

Ээксперименты будут продолжаться невероятно трудоемко , но если оно у нас есть в воображаемом мире, то нерабочие идеи будут реализовываться крайне редко.



Небольшое улучшение, повторенное много раз, является большим улучшением.

Дополнительная пара процентов пользователей в год — это немного, если у вас уже нет миллионов пользователей.

Однако два десятка подобных скромных экспериментов, проведенных один за другим, уже принесут почти 50% дополнительных пользователей.

(20 повторений улучшения на 2,25% из нашего примера принесут 56%: 1,0225^20 ≈ 1,56).

Культура постоянных небольших экспериментов, к сожалению, может отвлекать от выдвижения по-настоящему прорывных идей, но может принести весьма немалую пользу за счет оптимизации существующих решений.



Можно наблюдать после принятия решений

Даже если эксперимент окажется успешным, было бы здорово понаблюдать за пользователями в течение более длительного периода времени.

Например, если регистрация номера телефона окажется успешной через пять недель, мы сможем включить ее для 95% анонимных посетителей.

Оставшимся пяти процентам можно предложить такое же письмо и сравнить результаты различных вариантов не через пять, а через 25 недель.

Если применять подобный подход к пост-реализациям тестам постоянно, то можно это учесть в таблице оценок — вполне возможно ограничить негативный эффект от ошибочного внедрения, например, четырьмя месяцами, если эти четыре месяца после внедрения вы проверяете, остался ли еще негативный эффект от внедрения.

Это позволит нам проводить эксперименты с еще меньшим уровнем значимости (а значит, мы сможем проводить их чаще) ценой головной боли с наличием еще большего количества одновременно работающих опций сайта и сложности публичного анонсирования реализации (для некоторых пользователей старое решение может показывать еще четыре месяца).



Тестируйте идеи, которые имеют смысл

К счастью или к несчастью, статистические исследования не избавляют от необходимости думать.

Понимание рынка и его стандартов, пользователей и истории обслуживания позволяет сформулировать гипотезы, которые имеют больше шансов на улучшение ситуации.

Если вы работаете с сервисом несколько лет и знаете, что на нем заказывают рабочие инструменты, то вряд ли даже очень неудобная регистрация оттолкнет более нескольких процентов пользователей – ведь заказывать еще придется.

инструменты.

Соответственно, в примерной таблице страх потери можно ограничить, скажем, 20%, и вдруг окажется, что нам достаточно уровня значимости 85% или даже 80%, что радикально сократит время, необходимое для эксперимент. Если вы знаете, что по итогам прошлых лет даже самые радикальные изменения не улучшают/ухудшают ситуацию более чем на несколько процентов (например, новые пользователи приходят в основном по сильным рекомендациям соцсетей), то вы можете ввести аналогичные цифры в оценочную таблицу.

Например, возможную пользу мы оцениваем в 2%, а возможный вред – в 5%.

В результате снова окажется, что уровня значимости 80% достаточно и эксперимент можно провести очень быстро.

Если вы боитесь, что именно эта идея несет в себе очень большой риск (ведь почти все потенциальные пользователи откажутся давать свой номер телефона), то Может быть, стоит придумать менее рискованный эксперимент, позволяющий проверить гипотезу о желаниях пользователей менее разрушительным в случае ошибки способом? Например, почему бы не попробовать принимать и телефон, и электронную почту — это резко уменьшит потенциальный негативный эффект (уйдут только те, кто не понимает, чего от них хотят), и вы сможете окончательно отказаться или не отказаться от электронной почты по результатам.

долгосрочного анализа – просто глядя на то, что пользователи предпочитают использовать.



Как выбрать уровень статистической значимости для теста AB и как интерпретировать результат



Некоторые изменения имеет смысл внести, даже если мы не можем подтвердить положительный эффект.

Если стратегия компании заключается в переводе всех-всех-всех сервисов на идентификацию клиентов по номеру телефона или, как чаще, на новые корпоративные цвета и стили, то для отказа от реализации нужны очень серьезные аргументы.

Если калькулятор продолжительности эксперимента показывает сумасшедшие цифры для продолжительности, необходимой для достоверного опровержения отрицательного или нулевого эффекта изменений, постарайтесь спланировать эксперимент, который подтвердит, что изменение, даже если и ухудшит ситуацию, не будет более чем на пару процентов.

Например, вот этот калькулятор позволяет это.



Как подойти к выбору уровня значимости и анализу результатов?



Как выбрать уровень статистической значимости для теста AB и как интерпретировать результат

  • Разумеется, интерпретировать результаты выполненных тестов можно с помощью калькулятора, правильно указывающего результаты.

    Например, используя Productab.com , сделанный искренне вашим

    • Однако математика всех хороших калькуляторов практически одинакова: они будут считать правильно и такой , я такой (оплачено) и такой калькуляторы – только помните, как правильно интерпретировать результаты
  • Оцените стоимость экспериментальных ошибок разного рода конкретно для вашего сервиса и выберите несколько стандартных или не очень стандартных правил.

    Например, например:

    • «Мы тестируем эксперименты с возможной потерей клиентов с уровнем значимости 95%»
    • «Мы просто тестируем обычные небольшие улучшения на уровне значимости 90%».

    • «Мелочи, вроде текстов и цветов в местах, не связанных с оплатой товара, тестируем с 80% значимостью, а если калькулятор рекомендует продолжительность эксперимента больше недели, то вообще пропускаем тестирование».

  • И конечно, приобретайте больше опыта, лучше узнавайте пользователей, чтобы можно было инвестировать в эксперименты, которые действительно смогут что-то улучшить.

    Возможно эксперименты, кардинально меняющие весь процесс использования сервиса.

    Например, что если наш воображаемый сервис вообще откажется от регистрации и примет оплату от любого незарегистрированного посетителя, имеющего банковскую карту?



Благодарности

Данная статья также была опубликована благодаря неравнодушным людям, любезно согласившимся прочитать и прокомментировать проект – благодаря Светлана Марченко И Михаил Марченко , Максим Стаценко и Даша Стаценко, Саша Лысков.



Как вы интерпретируете результаты теста AB?

Насколько велик ваш продукт, как вы проводите тесты и выбираете уровень статистической значимости? Автор был бы очень признателен за советы по более понятной интерпретации результатов испытаний.

Теги: #Эксперименты #Управление продуктом #Тестирование веб-сервисов #Статистика в ИТ #управление продуктом #ab-тесты #ab-тесты

Вместе с данным постом часто просматривают: