Автор: Роман Зыков, эксперт по базам данных, независимый консультант по искусственному интеллекту ЛЕННУФ.
ру Когда мы говорим о личных рекомендациях, мы часто забываем, что они бывают разных типов.
В этой статье я рассмотрю основные различия между долгосрочными и краткосрочными рекомендациями.
Персонализированные рекомендации означают, что мы рекомендуем что-то пользователю, исходя из его личных интересов, учитывая его сигналы.
Сами сигналы бывают двух типов — явные, когда пользователь говорит то, что ему нравится (например, оценка песни, обзор товара); и неявный (неявный), когда пользователь совершает какие-то действия (посмотрел товар, послушал песню, что-то искал), по которым мы не можем однозначно оценить, нравится/не нравится что-то пользователю.
В первых версиях рекомендательных систем было принято использовать только явные данные, это можно увидеть как в литературе, так и в научных статьях того времени.
Неявных данных обычно гораздо больше — вспомните, сколько продуктов вы просмотрели (неявные сигналы) перед покупкой, а затем на сколько продуктов вы оставили отзывы (явные сигналы)? Поэтому в последнее десятилетие произошел сдвиг в сторону неявных рекомендаций.
Даже представители Netflix 5 лет назад на конференции RecSys заявили о важности таких данных.
Как мы можем это заметить? Например, рекомендации на YouTube постоянно корректируются на основе просмотренных вами видео и видео, которые вам понравились.
То же самое делают рекомендательные системы в музыкальных стриминговых сервисах, социальных сетях и интернет-магазинах.
Вернемся к вопросу долгосрочных/краткосрочных рекомендаций.
Под долгосрочными интересами я подразумеваю интересы пользователя, актуальные в течение длительного периода времени.
Это могут быть категории товаров, бренды, музыкальные жанры, музыкальные группы и т. д. Краткосрочные интересы пользователя — это те, которые необходимо немедленно удовлетворить для удовлетворения его текущих потребностей.
Например, девушка выбирает сапоги – цвет, длина каблука, толщина подошвы, цена, марка – вполне подходят для сиюминутных интересов.
Оба типа рекомендаций должны удовлетворять этим интересам.
По музыке - ритм, наличие/отсутствие вокала.
Долгосрочные рекомендации
Самая простая реализация заключается в том, что мы сохраняем давность последнего действия (Recency, привет RFM!) и частоту взаимодействия (Frequency) для каждой категории продуктов, музыкального жанра, группы.эти две переменные покрывают 80% потребности в данные для учета долгосрочных интересов.
Их очень удобно использовать в «ковровых» рассылках, на главных страницах интернет-магазинов, когда пользователь возвращается на сайт. Лучше показывать ему товары, учитывающие его прошлые интересы, чем просто бестселлеры магазина.
Здесь также можно использовать косвенные источники данных, например, интересы с посещенных страниц.
С технической точки зрения долгосрочные рекомендации не требуют крупных инвестиций; как правило, они могут пересчитываться с некоторой регулярностью, например, раз в сутки, пакетным способом.
Самый простой алгоритм можно использовать, например, линейно взвешивая две наши переменные — Recency и Frequency. А потом просто отсортируйте по убыванию веса и возьмите ТОП интересующих категорий.
Краткосрочные рекомендации
Краткосрочные рекомендации выглядят более сложными и интересными, чем долгосрочные.Представьте, вы зашли на сайт и выбрали обувь.
В процессе вы кликаете на интересующие вас товары, и система рекомендаций пытается определить, какие характеристики товара интересуют вас больше, чем обычного посетителя.
Пример такой реализации рекомендаций вы найдете в статье, соавтором которой я являюсь - «Применение дивергенции Кульбака-Лейблера для краткосрочного выявления интересов пользователей» .
Если коротко, то алгоритм КЛ (назову его так для простоты) имеет заранее рассчитанные распределения популярности свойств (цена, цвет, бренд и т. д.).
В процессе серфинга пользователя мы получаем его персональные дистрибутивы в свойствах продукта.
Чем дальше это распределение от «среднего», тем выше алгоритм продвигает товары с этими свойствами.
Какие свойства можно использовать для алгоритма? Помимо обычных свойств товара, которые есть в базе данных товаров, нам никто не мешает использовать встраивания, рассчитанные на основе текстовых описаний или фотографий товара.
Сложностью реализации любого краткосрочного алгоритма является составляющая реального времени, которая накладывает ограничения на реализацию.
Ведь нам нужно переоценивать рекомендации после каждого клика.
Часть данных для упомянутого алгоритма КЛ может быть предварительно рассчитана — распределение свойств товара для среднестатистического пользователя и встраивания и выгружена в базу данных один раз в сутки.
Любой рекомендательный алгоритм сталкивается с проблемой компромисса между отзывом и разнообразием.
Она заключается в том, что алгоритмы выдают слишком монотонный и предсказуемый результат в духе «Капитана Очевидность».
Помните, какие треки рекомендует стриминговый сервис — если они слишком однообразны, становится скучно.
Чтобы бороться с этим, вам необходимо либо «смешать» выходные данные более сложным способом, чем простая сортировка по весу.
Или используйте тактику исследовать-эксплуатировать обучение с подкреплением , когда мы вносим некоторую непредсказуемость в вывод пользователю.
От себя скажу, что улучшение разнообразия рекомендаций положительно влияет на реальные A/B-тесты онлайн.
Теги: #Управление электронной коммерцией #искусственный интеллект #электронная коммерция #Разработка для электронной коммерции #персонализация #маркетплейс #рекомендации
-
Блокировщики Всех Времен И Народов
19 Oct, 24 -
Альтапоиск Для Веб-Мастеров
19 Oct, 24