Учебное Пособие По Моделированию Подъемов. Часть 2



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

В первая часть мы познакомились с моделированием аплифта и узнали, что метод позволяет выбрать оптимальную стратегию общения с клиентом, а также рассмотрели особенности сбора данных для обучения модели и несколько основных алгоритмов.

Однако эти подходы не привели к прямой оптимизации подъема.

Поэтому в этой части мы разберем более сложные, но не менее интересные подходы.

Все уроки серии Часть 1: математический смысл, сбор обучающего набора, подъем модели Часть 2: модели поднятия (продолжение) Часть 3. Показатели подъема Содержание статьи Трансформация класса Преобразование классов (регрессия) Мультиклассовая модель Древовидные методы Заключение Источники



Трансформация класса

Подход к преобразованию классов, подход к преобразованию переменных класса, подход к возврату меток Довольно интересный и математически обоснованный подход к построению модели, представленный еще в 2012 году на ICML. [1] , который состоит из прогнозирования слегка измененной целевой переменной.



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

- новая целевая переменная

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

й клиент

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— целевая переменная

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

й клиент

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— флаг двоичной связи: когда

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Клиент-й попал в цель ( уход ) группа, в которой происходило общение; в

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

- клиент был помещен в диспетчерскую ( контроль ) группа, где не было общения.

Другими словами, новый класс равен 1, если мы знаем, что в конкретном наблюдении результат взаимодействия был бы таким же хорошим, как и в контрольной группе, если бы мы могли знать результат обеих групп:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Опишем подробнее, какова вероятность новой целевой переменной:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

В первая часть В статье мы обсудили, что обучающая выборка для моделирования подъема собирается на основе рандомизированного разделения части клиентской базы на целевую и контрольную группы.

Поэтому общение

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

не может зависеть от особенностей клиента

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

.

Учитывая это, мы имеем:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Мы получаем:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Давайте также предположим, что

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, т.е.

в ходе эксперимента контрольная и целевая группы были разделены в равных пропорциях.

Тогда мы получим следующее:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Таким образом, удвоив прогноз новой цели и вычтя из него единицу, мы получим значение самого подъема, т.е.



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Исходя из предположения, описанного выше:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, этот подход следует использовать только в тех случаях, когда количество клиентов, с которыми мы общались, равно количеству клиентов, с которыми не было общения.



Трансформация класса (регрессия)

Преобразованный результат Предыдущий тип преобразования классов имеет серьезные ограничения: целевая переменная

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

может быть только бинарным, а контрольная и целевая группы должны быть распределены в равных пропорциях.

Давайте рассмотрим более общий подход из [2] , который не имеет таких ограничений.

Преобразуйте исходную целевую переменную

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

по следующей формуле:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

- новая целевая переменная для

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

й клиент

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— флаг связи для

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

клиент

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— показатель склонности или вероятность быть отнесенным к целевой группе:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Здесь важно отметить, что можно оценить

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

как доля объектов с

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

в образце.

Или используйте метод из [3] , который предлагает оценить

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

как функция

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, обучив классификатор на имеющихся данных

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

и принимая вектор флага связи в качестве целевой переменной

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

.



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

После применения формулы мы получаем новую целевую переменную

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

и мы можем обучить модель регрессии с функционалом ошибок

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

.

Поскольку именно при применении MSE прогнозы модели представляют собой условное математическое ожидание целевой переменной.

Покажем, что условное математическое ожидание преобразованной цели

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

и есть желаемый причинный эффект от первая часть статьи:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Напомним также, что наблюдаемую целевую переменную можно представить как:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

- потенциальные реакции для всех

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

-й объект в зависимости от значения

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, который мы хотели бы (но не можем) наблюдать одновременно.

Перепишем формулу преобразования с учетом этого:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Затем:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

С каких это пор случайным образом разделены на целевую и контрольную группы

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

не должно зависеть от

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, Что:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Мы обнаружили, что преобразованная целевая переменная позволяет нам оценить прирост:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2



Мультиклассовая модель

Обобщенный метод Лай Итак, как мы можем взаимодействовать с клиентами?

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

и понаблюдай за их реакцией

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, то разделим их на 4 непересекающихся класса:
  1. Клиент выполнил целевое действие и мы с ним не общались( Ответчик управления – CR ):

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

  2. Клиент не выполнил целевое действие и мы с ним не общались( Контрольный не ответивший - CN ):

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

  3. Клиент выполнил целевое действие и мы с ним пообщались( Респондент, получивший лечение – TR ):

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

  4. Клиент не выполнил целевое действие и мы с ним связались( Пациент, не ответивший на лечение - TN ):

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2



Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Фотография взята и адаптирована из [4] Попробуем разобраться, как связаны между собой выделенные выше 4 класса и типа клиентов.

первая часть , который мы хотим найти ( не беспокой, потерялся, верный, уговорил ).

Их главное отличие состоит в том, что классы ЧР, Китай, ТР, Теннесси мы можем наблюдать непосредственно по их реакции на общение, но не можем наблюдать за типами клиентов.

При этом они взаимосвязаны: каждый из четырех классов может содержать одновременно 2 типа клиентов.

  1. Поскольку мы не знаем, выполнили бы ЧР клиент – это целевое действие, находящееся под нашим влиянием, то речь идет либо о просьба не беспокоить , или чтобы лояльный клиенты.

    Проводя аналогичные рассуждения, рассмотрим остальные классы:

  2. среди Китай клиенты могут быть такими потерянный , так убежденный типы клиентов
  3. Среди ТР клиенты могут быть такими убежденный , так лояльный типы клиентов
  4. Среди ТН клиенты могут быть такими просьба не беспокоить , так потерянный типы клиентов
В этом подходе [4] Предлагается спрогнозировать вероятности отнесения клиента к каждому из этих 4 классов и обучить модель многоклассовой классификации:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Тогда подъем можно рассчитать следующим образом:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Суммируем вероятности принадлежности к классу

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

И

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, поскольку они содержат тип убежденный , который мы хотим найти, и вычтем вероятности принадлежности к классу

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

И

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

, поскольку они содержат тип просьба не беспокоить , чего мне наоборот хотелось бы избежать.

Когда выборки очень несбалансированы по размеру, предлагается рассчитывать подъем следующим образом:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— доля клиентов в тестовой группе,

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— доля клиентов в контрольной группе,

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

.

Нормализация необходима, когда целевая группа мала по сравнению с контрольной группой, поскольку в этом случае доля ТР И ТН Клиентов тоже будет мало.



Древовидные методы

Деревья решений для моделирования поднятий, Причинные деревья Стоит отметить, что предыдущие способы имеют следующие недостатки:
  • В методах с двумя моделями при расчете итогового прогноза учитываются результаты двух моделей, то есть суммируются их ошибки;
  • Если для обучения будут использоваться принципиально разные модели или характер данных целевой и контрольной групп будет сильно различаться, то может потребоваться калибровка прогнозов модели;
  • Поскольку многие методы прогнозируют рост косвенно, модели могут упускать из виду тонкие различия между целевой и контрольной группами.

Я хотел бы взять хорошо зарекомендовавший себя метод и изменить его, чтобы напрямую оптимизировать подъем.

Например, авторы статьи [5] предлагают использовать деревья решений с другим критерием разделения.

Дерево строится таким образом, чтобы максимизировать расстояние (расхождение) между распределениями целевой переменной y контроль И цель группы.

Формально для каждого раздела это можно записать так:

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— распределение целевой переменной в контроль И цель группы

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— расхождение (расхождение) между двумя распределениями Существует несколько типов дивергенции D, которые используются для решения этой задачи:

  • Расхождение Кульбака – Лейблера:

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

  • Евклидово расстояние:

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

  • Дивергенция хи-квадрат:

    Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где распределения представлены как

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Если окажется, что в вершине при разбиении остаются объекты одной группы (управляющей или целевой), то дивергенция сводится к стандартному критерию для деревьев (КЛ-дивергенция - к критерию энтропии, евклидову расстоянию и хи- квадрат – к критерию Джини).

Еще одним важным условием разбиения является минимизация разницы между количеством объектов, попадающих в левую и правую дочерние вершины.

Слева на картинке пример плохого разбиения, когда высокое значение подъема в левой дочерней вершине достигается за счет того, что в нее попали только 30 объектов из 1000.

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Фотография взята и адаптирована из [7] Для контроля количества объектов в разбиении можно использовать формулу взвешенной дивергенции (после разделения):

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

Где

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

И

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— количество объектов, попадающих в левую и правую дочернюю вершину соответственно

Учебное пособие по моделированию подъемов.
</p><p>
 Часть 2

— распределение целевой переменной в цель И контроль группа для левых и правых дочерних вершин После реализации дерева с новым критерием расщепления вы можете использовать этот алгоритм как базовый в ансамблях, например, в случайном лесу или градиентном бустинге, а также применять стандартные для деревьев методы борьбы с переобучением, такие как обрезка или ранняя остановка) .



Заключение

Серия обзорных статей не охватывает все подходы к прогнозированию подъема, но охватывает наиболее популярные и интересные для нас.

На сегодняшний день не существует идеального метода, который на основе разных данных и на протяжении длительного периода времени превосходил бы по качеству другие.

Этот факт мотивирует исследователей разрабатывать новые подходы (например, интересная статья 2019 года об использовании бандитов для решения этой проблемы).

[8] ).

В будущем мы планируем рассмотреть показатели качества для оценки прогнозируемого роста.

Моделирование Uplift используется не только для маркетинговых задач, но и в медицине, политике, экономике и других сферах.

То есть, когда поведение объектов может измениться под каким-то контролируемым воздействием, этот подход может быть предпочтительнее других.

Статья написана в соавторстве с Максимом Шевченко ( Макс-ш )

Источники

  • [1] Мацей Ясковский и Шимон Ярошевич.

    Моделирование подъема данных клинических испытаний.

    Семинар ICML по анализу клинических данных, 2012 г.

  • [2] Сьюзан Эти и Гвидо В.

    Имбенс.

    Методы машинного обучения для оценки гетерогенных причинных эффектов.

    стат, 1050:5, 2015.

  • [3] П.

    Ричард Хан, Джаред С.

    Мюррей и Карлос Карвалью.

    Модели дерева байесовской регрессии для причинного вывода: регуляризация, смешивание и гетерогенные эффекты.

    2019.

  • [4] Кейн, К.

    , В.

    С.

    Ю.

    Ло и Дж.

    Чжэн.

    Майнинг для действительно отзывчивых и потенциальных клиентов с использованием моделирования True-Lift: сравнение новых и существующих методов.

    Журнал маркетинговой аналитики 2 (4): 218–238. 2014.

  • [5] Петр Жепаковский и Шимон Ярошевич.

    Деревья решений для моделирования поднятия с помощью одиночного и несколько процедур.

    Знания и информационные системы, 32(2):303–327, 2012.

  • [6] Ян Чжао, Сяо Фан и Дэвид Симчи-Леви.

    Моделирование подъема с использованием нескольких обработок и общих типов реакции.

    В материалах Международной конференции SIAM по интеллектуальному анализу данных 2017 г.

    , 588–596. СИАМ, 2017.

  • [7] Воутер Вербеке, Барт Бэсенс, Кристиан Браво.

    Бизнес-аналитика, ориентированная на прибыль: практическое руководство по преобразованию больших данных в добавленную стоимость.

  • [8] Йерун Берревутс, Сэм Вербовен, Воутер Вербеке.

    Оптимизация эффекта индивидуального лечения с помощью бандитов, 2019.

Теги: #Машинное обучение #математика #искусственный интеллект #наука о данных #Интеллектуальный анализ данных #uplift #uplift #причинность #причинный вывод #каузальный эффект #моделирование подъема #истинный подъем #чистый подъем #каузальное дерево #causalml
Вместе с данным постом часто просматривают: