Кластерный Анализ (На Примере Сегментации Потребителей) Часть 1

Мы знаем, что Земля — одна из 8 планет, вращающихся вокруг Солнца.

Солнце — всего лишь одна звезда среди примерно 200 миллиардов звезд галактики Млечный Путь.

Понять это число очень сложно.

Зная это, мы можем сделать предположение о количестве звезд во Вселенной — примерно 4X10^22. На небе мы можем увидеть около миллиона звезд, хотя это лишь малая часть реального числа звезд. Итак, у нас есть два вопроса:

  1. Что такое галактика?
  2. И какая связь между галактиками и темой статьи (кластерный анализ)


Кластерный анализ (на примере сегментации потребителей) часть 1

Галактика — это совокупность звезд, газа, пыли, планет и межзвездных облаков.

Обычно галактики напоминают спираль или эдептическую фигуру.

В космосе галактики отделены друг от друга.

Огромные черные дыры часто являются центрами большинства галактик.

Как мы обсудим в следующем разделе, существует много общего между галактиками и кластерным анализом.

Галактики существуют в трехмерном пространстве, кластерный анализ — это многомерный анализ, проводимый в n-мерном пространстве.

Заметка: Черная дыра — центр галактики.

Мы будем использовать аналогичную идею относительно центроидов для кластерного анализа.



Кластерный анализ

Допустим, вы руководитель отдела маркетинга и работы с потребителями в телекоммуникационной компании.

Вы понимаете, что каждый потребитель индивидуален и что вам нужны разные стратегии для привлечения разных потребителей.

Вы оцените возможности такого инструмента, как сегментация клиентов для оптимизации затрат. Чтобы освежить свои знания в области кластерного анализа, рассмотрите следующий пример, иллюстрирующий 8 потребителей и среднюю продолжительность их звонков (местных и международных).

Ниже данные:

Кластерный анализ (на примере сегментации потребителей) часть 1

Для лучшего понимания построим график, где по оси X будет показана средняя продолжительность международных звонков, а по оси Y — средняя продолжительность местных звонков.

Ниже приведен график:

Кластерный анализ (на примере сегментации потребителей) часть 1

Заметка: Это похоже на анализ расположения звезд на ночном небе (здесь звезды заменены потребителями).

Кроме того, вместо трехмерного пространства мы имеем двухмерное, определяемое длительностью местных и международных звонков по осям x и y. Теперь, говоря в терминах галактик, задача формулируется так – найти положение черных дыр; в кластерном анализе их называют центроидами.

Чтобы обнаружить центроиды, мы начнем с того, что возьмем произвольные точки в качестве положений центроидов.



Евклидово расстояние для поиска центроидов кластеров

В нашем случае мы произвольно разместим два центроида (C1 и C2) в точках с координатами (1, 1) и (3, 4).

Почему мы выбрали именно эти два центроида? Визуальное отображение точек на графике показывает нам, что есть два кластера, которые мы будем анализировать.

Однако позже мы увидим, что ответ на этот вопрос не так прост для большого набора данных.

Далее мы измерим расстояние между центроидами (C1 и C2) и всеми точками на графике, используя формулу Евклида, чтобы найти расстояние между двумя точками.



Кластерный анализ (на примере сегментации потребителей) часть 1

Примечание.

Расстояние можно рассчитать и по другим формулам, например,

  1. квадрат евклидова расстояния – для придания веса объектам, которые находятся дальше друг от друга.

  2. Манхэттенское расстояние – для снижения воздействия выбросов
  3. Дистанция власти – для увеличения/уменьшения влияния по конкретным координатам
  4. процент несогласия – для категориальных данных
  5. и так далее.

Столбцы 3 и 4 (Расстояние от C1 и C2) — это расстояние, рассчитанное по этой формуле.

Например, для первого потребителя

Кластерный анализ (на примере сегментации потребителей) часть 1

Принадлежность к центроидам (последний столбец) рассчитывается на основе близости к центроидам (C1 и C2).

Первый потребитель находится ближе к центроиду №1 (1,41 по сравнению с 2,24) и, следовательно, принадлежит кластеру с центроидом C1.

Кластерный анализ (на примере сегментации потребителей) часть 1

Ниже приведен график, иллюстрирующий центроиды C1 и C2 (показаны сине-оранжевым ромбом).

Потребители изображаются цветом соответствующего центроида, к которому они отнесены.



Кластерный анализ (на примере сегментации потребителей) часть 1

Поскольку мы выбрали центроиды случайным образом, второй шаг — сделать этот выбор итеративным.

Новое положение центроида выбирается как среднее для точек соответствующего кластера.

Так, например, для первого центроида (это потребители 1, 2 и 3).

Следовательно, новая координата x для центроида C1 — это средняя координата x этих потребителей (2+1+1)/3 = 1,33. Мы получим новые координаты для C1 (1.33, 2.33) и C2 (4.4, 4.2).

Новый график ниже:

Кластерный анализ (на примере сегментации потребителей) часть 1

Наконец, мы разместим центроиды в центре соответствующего кластера.

График ниже:

Кластерный анализ (на примере сегментации потребителей) часть 1

Положения наших черных дыр (центров скоплений) в нашем примере — C1 (1,75, 2,25) и C2 (4,75, 4,75).

Два скопления выше подобны двум галактикам, отделенным друг от друга в пространстве.

Итак, давайте посмотрим на примеры дальше.

Перед нами стоит задача сегментировать потребителей по двум параметрам: возрасту и доходу.

Допустим, у нас есть два потребителя в возрасте 37 и 44 лет с доходами 90 000 и 62 000 долларов США соответственно.

Если мы захотим измерить евклидово расстояние между точками (37,90000) и (44,62000), мы увидим, что в этом случае переменная дохода «доминирует» над переменной возраста и ее изменение сильно влияет на расстояние.

Нам нужна некая стратегия для решения этой проблемы, иначе наш анализ даст неверный результат. Решение этой проблемы — привести наши ценности к сопоставимым масштабам.

Нормализация — это решение нашей проблемы.



Нормализация данных

Существует множество подходов к нормализации данных.

Например, нормализация минимум-максимум.

Для этой нормализации используется следующая формула

Кластерный анализ (на примере сегментации потребителей) часть 1

в данном случае X* — нормированное значение, min и max — минимальная и максимальная координаты по всему множеству X (Обратите внимание, что эта формула помещает все координаты в отрезок [0;1]) Давайте посмотрим на наш пример, скажем, максимальный доход составляет 130 000 долларов США, а минимальный — 45 000 долларов США.

Нормализованное значение дохода для потребителя А равно

Кластерный анализ (на примере сегментации потребителей) часть 1

Мы проделаем это упражнение для всех точек каждой переменной (координат).

Доход для второго потребителя (62000) после процедуры нормализации станет 0,2. Кроме того, пусть минимальный и максимальный возраст составит 23 и 58 лет соответственно.

После нормализации возраст двух наших потребителей составит 0,4 и 0,6. Легко заметить, что все наши данные теперь находятся между значениями 0 и 1. Таким образом, теперь у нас есть нормализованные наборы данных в сопоставимых масштабах.

Помните, перед процедурой кластерного анализа необходимо провести нормализацию.

Нашел статью Кузнецовин Теги: #Большие данные #кластерный анализ #кластерный анализ #сегментация клиентов #Интеллектуальный анализ данных #Интеллектуальный анализ данных #Большие данные

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.