«Компьютер Не Понимает Смысла Событий»: Проблемы Использования Машинного Обучения В Маркетинге

Антон Липатов, менеджер по развитию и инновациям группы маркетинга» Текарт — написал колонку для vc.ru об использовании алгоритмов машинного обучения в маркетинге.

Он утверждает, что подход не всегда эффективен, поскольку инвестиции в технологии окупаются только для крупных компаний, а фрагментация маркетинговых данных не позволяет добиться качества.

Результаты.



«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге



«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге

Антон Липатов, менеджер по развитию и инновациям маркетинговой группы «Текарт» Цель этого материала — показать подводные камни использования алгоритмов машинного обучения в маркетинговых задачах.

Мы столкнулись с ними, и каждая компания, использующая машинное обучение в маркетинге, сталкивается с ними.

Примерно за 3-4 года мы фиксируем рост интереса к теме данных.

Все сводилось к тому, что клиент сказал: «У нас есть данные, мы не знаем, что с ними делать».

Необходимо обрабатывать, интерпретировать и упаковывать данные таким образом, чтобы они стали знаниями, основой для принятия решений.

Это просто.

Мы рассмотрели и опробовали алгоритмы машинного обучения на клиентских базах данных, содержащих десятки и сотни тысяч записей.

Мягко говоря, не взлетело.

Ни в коем случае нельзя говорить, что машинное обучение стало панацеей.

Что нельзя было обойтись более простыми методами, например, RFM-сегментацией клиентов по давности последней покупки, частоте и размеру покупок.

Еще одна цель заметки — в популярной форме рассказать, почему сейчас идет активный отказ от термина «большие данные».

Популярный стиль изложения допускает в пределах разумного свободу в использовании терминов.

Итак, давайте рассматривать понятия «машинное обучение», «интеллектуальный анализ данных», обнаружение знаний в базах данных и ту составляющую больших данных, которая имеет непосредственное отношение к алгоритмам решения задач, как синонимы.

Ниже мы напишем, какие еще компоненты есть у big data.



Почему эра термина big data прошла



«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге

Большие данные на марше Если кто не знал, да, эпоха прошла.

В солидных компаниях лучше вывести этот термин из оборота, использовать «интеллектуальный анализ данных» или импортозамещающее «машинное обучение».

Говорят, что с умными данными вы тоже будете хорошо выглядеть.

Что и когда произошло с большими данными? С большими данными все было не так с самого начала.

Только ленивый не сказал, что термин введен наспех и совершенно не отражает сути явления.

Почему не отражается? Дайте четкое определение больших данных.

Сомневаюсь, что специалисты смогут это сделать.

Сомневаюсь, что полученные ответы будут похожи друг на друга.

При этом большинство, конечно, назовет примеры конкретных задач, которые относятся к сфере больших данных.

Они будут похожи друг на друга тем, что на входе много данных, а на выходе — «прибыль».

Между данными и прибылью существует черный ящик.

Пример 1. Банк имеет доступ к миллионам кредитных историй.

Каждый клиент имеет свои особенности: социально-демографические, кредитную историю.

Классическая задача скоринга – спрогнозировать вероятность возникновения проблем с вновь выданным кредитом, на который подал заявку клиент. Пример 2 .

Имеется клиентская база интернет-магазина.

Вам необходимо «разрезать» их на группы в зависимости от специфики покупки.

Поддерживать единую коммуникацию внутри группы.

Пример 3 .

Имеется база продаж интернет-магазина.

На основе исторических данных необходимо разработать систему, которая рекомендует товары, дополняющие покупку.

Основная ценность черного ящика — алгоритм машинного обучения, который находит в базах данных нетривиальные знания.

Понятно, что выдать кредит человеку с хорошей историей и высоким доходом лучше, чем с плохой историей и низким доходом.

Это тривиальные знания.

Но, например, трудно заранее предсказать, что в понедельник будет взято много «плохих» кредитов.

Это нетривиальные знания, которые банковским аналитикам будет сложно усвоить.

Многие интернет-технологии, которые мы сегодня считаем само собой разумеющимися, выросли из машинного обучения: поиск, автоматический перевод, рекламные технологии.

Например, подбор аудитории с помощью технологии Look-Alike. Почему класс решений изначально не назывался «машинное обучение» или другим синонимом? Потому что машинное обучение сложно продать.

И термин «большие данные» оказался отличным маркетинговым ходом.

Такая маркировка на растворе увеличивает цену в несколько раз.

Простые продающие слова в заголовке, особенно если они не дают понимания смысла, оказывают на менеджеров магическое воздействие: «У вас есть большие данные? Нет? Рискуете отстать, бегите и срочно покупайте.

Все уже об этом говорят».

Нечто подобное произошло в России 6-7 лет назад с нанотехнологиями.

Мало кто понимал, что это такое, но денег на это было выделено много.

Так появилась цитата о больших данных: «Большие данные — это как подростковый секс: все об этом говорят, никто толком не знает, как это делать.

Все думают, что все остальные делают это, и поэтому утверждают, что они тоже это делают».

Цитата самодостаточна.

Ее автор Дэн Раэли работал в нескольких престижных университетах, а его пять докладов получили более 10 миллионов просмотров на сайте TED. Единственное, это не имеет ничего общего с большими данными.

Его специализация — психология в экономике, изучение иррационального поведения экономических субъектов.

Он получил Шнобелевскую премию за доказательство того, что дорогие лекарства-плацебо действуют лучше, чем дешевые лекарства-плацебо.

Напомню, что его презентации имеют 10 миллионов просмотров.

При этом к big data он не имеет никакого отношения, но тоже об этом говорил.

Кстати, сама цитата не нова – за 20 лет в нее подставили нужный термин.

Например, в 1998 году мы говорили об электронной коммерции.

Что еще нужно, чтобы убедить людей покупать? Правильно, аналитика, демонстрирующая активный рост и светлое будущее.

В таблице представлены оценки и прогнозы четырех исследовательских компаний по мировому рынку больших данных, сделанные в 2013-2014 годах.

Большие данные имеют отличные оценки и соответствующие темпы роста, которые в процентах в 5-6 раз выше, чем у ИТ-рынка в целом.

Оценки и прогнозы рынка больших данных в миллиардах долларов, сделанные в 2014-2015 гг.

Вначале Techart я несколько лет работал в нашем исследовательском направлении Techart.Research. Любая оценка в отчете должна сопровождаться описанием методологии, использованной для ее получения.

Если это кирпичный рынок, то достаточно одного предложения.

Но в случае с большими данными методология достойна отдельного исследования.

Вот описание методологии IDC (International Data Corporation – прим.

редактора) ) , которая является самой известной среди перечисленных компаний.

По мнению IDC, большие данные — это проекты, которые описываются четырьмя «V»: объём, скорость сбора (velocity), гетерогенность (разнообразие) и ценность (ценность).

На практике 4В требуют, чтобы проект собирал большие объемы данных (от 100 ТБ) или работал с высокоскоростными потоками данных, а ежегодный прирост объема данных составляет более 60%.

Данные должны быть неоднородными, а решение должно иметь горизонтально масштабируемую архитектуру.

«Очень простое» определение больших данных от IDC Каков размер рынка больших данных, исходя из этого определения? Это, ни много ни мало, инвестиции, затраты на процессы, относящиеся к классу больших данных.

Полный спектр расходов: сюда входит оборудование, то есть процессоры и хранилища, программное обеспечение и профессиональные услуги.

Иногда даже зарплата персонала компании-подрядчика.

Полный спектр затрат. С учетом зарплат прогноз рынка превышает 100 миллиардов долларов.

Для сравнения, мировой рынок программного обеспечения оценивается всего в 400 миллиардов долларов.

Получается, что большие данные — это уже четверть мирового рынка программного обеспечения.



«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге

Основа рынка больших данных — оборудование и инфраструктура.

Источник: Викибон, 2014 г.

Мы помним, что главная ценность и «лицо» больших данных — не аппаратное обеспечение, а алгоритмы машинного обучения.

Но если посмотреть на структуру рынка, то все немного иначе: железо занимает больше трети.

Остальные две трети используют весьма расплывчатые термины «услуги» и «программное обеспечение».

Непонятно, что из этого и как можно завязать с машинным обучением, но можно с уверенностью сказать, что больше половины рынка приходится на решение задач создания хранилищ.

Такое искажение не могло оставаться в стабильном состоянии долгое время.

Поэтому в 2015 году термин «большие данные» внезапно исчез из кривой зрелости технологии Hype Cycle компании Gartner. Годом ранее они вступили в эпоху «избавления от иллюзий» с прогнозом выхода на «плато производительности» в ближайшие 5-10 лет. Компания не прокомментировала в пресс-релизе исследование.

Насколько можно судить по косвенным источникам, речь шла об отказе от термина «большие данные» в пользу машинного обучения.

Прогноз Gartner на 2014 год Прогноз Gartner на 2015 год Это завершает эпоху больших данных, но ни в коем случае не эпоху машинного обучения.

Машинное обучение сейчас проявляет себя наилучшим образом в тех задачах, в которых возможен и уместен статистический подход.

Статистически-аналитический подход

Подход машинного обучения — это статистический подход, хорошо известный в науке.

Это противоречит аналитическому подходу.

В чем их разница? Поясним очень грубо, на примере физики.

В определенном процессе нужно найти уравнение зависимости величины у от величины х – у = f(x).

Это может быть зависимость ускорения от приложенной силы по второму закону Ньютона или повышение температуры от затраченного тепла.

Аналитический подход заключается в описании всех происходящих явлений и выводе на их основе закона.

Статистический подход заключается в проведении серии экспериментов, построении таблицы соответствия значений x и y и определении связи математическими методами.

Аналитические и статистические методы часто дополняют друг друга в нашем стремлении понять окружающий мир.

Методы машинного обучения не имеют ограничений на природу описываемых с их помощью явлений.

То есть для применения алгоритмов не имеет значения, идет ли речь о данных датчиков технологического процесса, данных о продажах из интернет-магазина или словах для перевода на другой язык.

Перевод — это область, в которой машинное обучение произвело революцию.

Если вы сторонник аналитического подхода, то для того, чтобы перевести предложение с одного языка на другой, вам необходимо установить правила морфологии, семантики, синтаксиса, и это только начало очень длинного списка.

Перевод в поисковых системах осуществляется на основе огромной базы текстов.

Нет необходимости выводить правила или согласовывать члены предложения: текст в результатах поиска будет определяться на основе статистических показателей.

Другими областями, в которых машинное обучение не только применили, но и вывели решения на новый уровень, являются сам поиск, обработка результатов научных исследований, прогнозирование пробок на дорогах, выявление мошенничества и медицинские исследования.

Там машинное обучение дает уникальные по ценности результаты.

В 2014 году Аркадий Волож назвал большие данные в корпоративном сегменте одной из трёх идей для следующего миллиарда «Яндекса».

А в 2016 году направление «Фабрика данных Яндекса», помимо всего прочего, уже имело интересный промышленный кейс по поставке решения для Магнитогорского металлургического комбината.

Во всех случаях экспериментальный подход выигрывает от стабильных, постоянно растущих источников больших данных.

На подходе новые великие тенденции, такие как Интернет вещей и датчики человеческих чувств.



Машинное обучение в маркетинге

Кажется, со статистическим подходом в маркетинге все отлично: машинное обучение позволяет маркетологу опуститься до уровня конкретного клиента, конкретной сделки.

Поговорите с клиентом один на один на его языке, поймите его потребности.

Станьте лавочником из Средневековья, который не только знает, кому что предложить, но и в курсе некоторых интимных подробностей жизни своих клиентов.

Почему бы и нет, сейчас у каждого из нас уже есть хорошее досье.

В результате маркетолог может тратить меньше, продавать больше и пользоваться лояльностью.

Но, как оказывается, маркетинговые данные, а мы помним, что качество данных и стабильность их получения принципиально важны, сильно отличаются от базы запросов Google или истории пробок на трассе.

Эти различия делают пользовательский уровень не таким приятным для ведения маркетингового диалога с клиентом.



Инструменты с бессмысленным уровнем пользователя

Данные о конкретных пользователях, их поведении и действиях полезны не во всех маркетинговых каналах.

Они хорошо подходят для персонализации веб-сайтов, рассылок по электронной почте и моделей программной рекламы.

В других каналах индивидуальная персонализация невозможна или бесполезна.

Это столпы комплексного маркетинга: SEO, контекстная реклама, в которой мы в лучшем случае можем думать и работать с сегментами пользователей, а также оффлайн-реклама, которая до сих пор составляет основную статью маркетингового бюджета.



Машинное обучение — это не знания

Вторая особенность: машинное обучение существует само по себе и мало связано со знаниями.

Используемые алгоритмы сложны для понимания и в большинстве случаев являются черными ящиками для самих исследователей.

Результаты машинного обучения трудно или невозможно обобщить на другие задачи.

Каждая новая задача — это новый опыт обучения.

Например, стоит задача спрогнозировать, какой размер скидки принесет наибольшую прибыль.

Статистический подход предполагает загрузку данных о прошлых рекламных акциях и поведении потребителей.

На основании этого он выдает номер.

В традиционном анализе размер скидки устанавливается субъективно, исходя из ряда факторов, таких как опыт исследователя, ссылка на опыт коллег, проведение тестов с аудиторией.

Сюда входит анализ макроэкономических факторов, таких как динамика доходов населения.

Оба подхода дадут определенный результат. Но на вопрос «почему такЭ» У мастера машинного обучения ответ будет один — потому что так показали расчеты.

А вот сторонник дедуктивного метода, скорее всего, сможет восстановить цепочку рассуждений.

Результаты машинного обучения действительны только для тех данных, которые вы используете в качестве входных.

Как только появятся принципиально новые данные (например, из новых сегментов аудитории), алгоритмы, скорее всего, начнут плохо на них работать.

Для аналитического метода изменение входных данных также является проблемой.

Но преимущество здесь в том, что есть ответ на вопрос: «Почему мы решили предыдущую задачу именно таким образомЭ» И экстраполяция на новые исходные данные может быть проще.



Проблема с качеством данных

Проблема познания философская.

Машинное обучение не накапливает знания? Ну и что, мы в любой момент можем всё пересчитать.

Однако это тоже не всегда легко.

В жизни гораздо важнее качество исходных данных, к которым чувствительны экспериментальные методы.

Чем больше факторов включено в анализ, тем интереснее и неожиданнее могут быть результаты, с некоторыми оговорками.

Это прекрасно работает, когда данные поступают от сенсорной системы: для каждого фактора имеется стабильный поток значений.

В маркетинге данные на уровне пользователя не так стабильны.

Во-первых, они подвержены различным шумам.

В Интернете шум может быть вызван несовершенством систем веб-аналитики или работой роботов.

Хорошо, когда шум сильный, тогда его легко уловить.

Когда они выглядят как честные данные, это очень сложно сделать.

Во-вторых, данные фрагментированы.

Некоторым пользователям известен пол, другим — история запросов, третьим — регион.

Оказывается, модели строятся на данных низкого качества, что и определяет соответствующий результат. В частности, по этой причине сегодня программатик работает не идеально.

Можно пойти по пути уменьшения количества учитываемых факторов.

Но здесь теряется смысл машинного обучения, поскольку при меньшем количестве условий более простые методы анализа данных или аналитический подход покажут лучшие результаты.

Сбор и подготовка данных — это отдельная подзадача и отдельные инвестиции, которые необходимо учитывать в конечном ROMI внедрения машинного обучения.



Корреляция вместо причинно-следственной связи

Машина может делать что-то вроде принятия решений.

Но компьютер не понимает смысла анализируемых событий; для него это просто ряд чисел.

Машинное обучение сводится к поиску корреляций — связей между изменениями факторов.

Но такая связь не означает существования причинно-следственной связи.

Классический пример: в европейских странах, где проституция легализована, количество церквей в городах коррелирует с количеством публичных домов.

Но не потому, что грешники больше каются или потому, что эти параметры как-то дополняют друг друга, а потому, что оба они зависят от другого фактора – численности населения города.



Проблема с эффектом

Известно, что с увеличением сложности эффект от анализа снижается, а затраты растут. Машинное обучение — очень сложная технология, технология «последней мили».

С его помощью можно «дорого» выжать дополнительные 2-3% эффективности, что имеет экономический смысл при больших объемах бизнеса.

Примером таких затрат является конкурс Netflix Prize, проходивший в 2006–2009 годах.

Если не первое, то самое известное соревнование по большим данным с призовым фондом в $1 млн.

Американская компания Netflix занимается прокатом видеофильмов.

Пользователь присваивает каждому фильму оценку от одного до пяти.

Необходимо было спрогнозировать оценку, которую пользователь поставит новому фильму.

На основе этих рейтингов формируется рекомендуемый список фильмов.

Очевидно, логика была в том, что если Netflix даст правильные рекомендации, это повысит лояльность клиентов, он будет чаще брать фильмы в прокат и не перейдет к другому дистрибьютору.

Самый простой вариант — вычислить среднее значение всех рейтингов фильмов — дал среднеквадратичную ошибку примерно в один балл.

Грубо говоря, в каждом случае он ошибался примерно на один балл.

Целью конкурса было повысить производительность этого простейшего подхода на 18% или улучшить ранее разработанный алгоритм Netflix на 10%.

В результате цель была достигнута.

Мне не удалось найти оценку общей стоимости рабочей силы для проекта, но она огромна.

Нужно понимать, что конкурс длился три года, в первый год зарегистрировалось 20 тысяч команд, а в конце первого года команда-лидер потратила две тысячи человеко-часов.



Проблема визуализации

Еще одна маленькая ложка дегтя.

Результаты анализа на уровне пользователя сложно визуализировать.

Как правило, мы получаем что-то вроде графиков, которые сложно интерпретировать и с их помощью что-то доказывать руководству.

Для большинства процесс исследования до момента получения результатов остается черным ящиком.

Перечисленные ограничения не хоронят идею, но сегодня именно качество данных делает машинное обучение в сфере маркетинга неэффективным или нишевым инструментом.

И вот еще одно замечание.

За последние несколько лет, особенно в интернет-маркетинге, мы наблюдаем рост популярности подхода, основанного на данных.

CRM, персонализация веб-сайтов, теперь и машинное обучение.

ИТ и другие технологии используют данные для повышения эффективности маркетинга.

Рассчитываем ROI, LTV и т.д. Оцениваем рекламные кампании.

Я также сторонник подхода, основанного на данных.

Это все очень круто.

Вероятно, ни один из ведущих брендов не достиг бы такого успеха, если бы у них был неэффективный маркетинг.

Однако, похоже, интернет-маркетинг возвращается к войне SEO-алгоритмов начала века, когда из-за дыр в Рамблере сайт вывели в топ за три дня.

С Яндексом потом было сложнее, но алгоритм все равно работал: следуй инструкциям по продвижению, и успех неизбежен.

После этого поисковые системы приложили немало усилий, чтобы поставить Интернет на маркетинговое русло.

Появилась большая группа поведенческих факторов ранжирования, выросла важность хорошего контента.

Интернет-маркетинг начал приобретать человеческое лицо и стал ближе к «традиционному» маркетингу.

И здесь технологии машинного обучения претендуют на то, чтобы заменить маркетологов на поле боя обратно алгоритмистами.

Кажется, что за всем этим несколько теряется истинная суть маркетинга, которая заключается не в постоянном повышении эффективности, а в умении понять клиента, сформулировать его потребность и реализовать ее.

Компьютер не способен справиться с задачей генерации потребностей.

Поэтому чистый data-driven маркетинг, в котором алгоритм заменяет маркетинговую идею, имеет право на жизнь, но вряд ли станет залогом беспрецедентного успеха.

Точно так же, как не следует приравнивать маркетинг к маркетингу на уровне пользователя, не следует полностью заменять маркетинг синтетическим суррогатным маркетингом, основанным только на данных и истории.

Возможно, по этой причине эмпирический подход, присущий технологиям больших данных, хорошо работает в холодных областях, таких как перевод, исследовательский анализ и финансы.

И пока все плохо в сфере маркетинга, который изначально теплый и ламповый.

Вместе с данным постом часто просматривают: