Мы знаем, что Земля — одна из 8 планет, вращающихся вокруг Солнца.
Солнце — всего лишь одна звезда среди примерно 200 миллиардов звезд галактики Млечный Путь.
Понять это число очень сложно.
Зная это, мы можем сделать предположение о количестве звезд во Вселенной — примерно 4X10^22. На небе мы можем увидеть около миллиона звезд, хотя это лишь малая часть реального числа звезд. Итак, у нас есть два вопроса:
- Что такое галактика?
- И какая связь между галактиками и темой статьи (кластерный анализ)
Галактика — это совокупность звезд, газа, пыли, планет и межзвездных облаков.
Обычно галактики напоминают спираль или эдептическую фигуру.
В космосе галактики отделены друг от друга.
Огромные черные дыры часто являются центрами большинства галактик.
Как мы обсудим в следующем разделе, существует много общего между галактиками и кластерным анализом.
Галактики существуют в трехмерном пространстве, кластерный анализ — это многомерный анализ, проводимый в n-мерном пространстве.
Заметка: Черная дыра — центр галактики.
Мы будем использовать аналогичную идею относительно центроидов для кластерного анализа.
Кластерный анализ
Допустим, вы руководитель отдела маркетинга и работы с потребителями в телекоммуникационной компании.Вы понимаете, что каждый потребитель индивидуален и что вам нужны разные стратегии для привлечения разных потребителей.
Вы оцените возможности такого инструмента, как сегментация клиентов для оптимизации затрат. Чтобы освежить свои знания в области кластерного анализа, рассмотрите следующий пример, иллюстрирующий 8 потребителей и среднюю продолжительность их звонков (местных и международных).
Ниже данные:
Для лучшего понимания построим график, где по оси X будет показана средняя продолжительность международных звонков, а по оси Y — средняя продолжительность местных звонков.
Ниже приведен график:
Заметка: Это похоже на анализ расположения звезд на ночном небе (здесь звезды заменены потребителями).
Кроме того, вместо трехмерного пространства мы имеем двухмерное, определяемое длительностью местных и международных звонков по осям x и y. Теперь, говоря в терминах галактик, задача формулируется так – найти положение черных дыр; в кластерном анализе их называют центроидами.
Чтобы обнаружить центроиды, мы начнем с того, что возьмем произвольные точки в качестве положений центроидов.
Евклидово расстояние для поиска центроидов кластеров
В нашем случае мы произвольно разместим два центроида (C1 и C2) в точках с координатами (1, 1) и (3, 4).Почему мы выбрали именно эти два центроида? Визуальное отображение точек на графике показывает нам, что есть два кластера, которые мы будем анализировать.
Однако позже мы увидим, что ответ на этот вопрос не так прост для большого набора данных.
Далее мы измерим расстояние между центроидами (C1 и C2) и всеми точками на графике, используя формулу Евклида, чтобы найти расстояние между двумя точками.
Примечание.
Расстояние можно рассчитать и по другим формулам, например,
- квадрат евклидова расстояния – для придания веса объектам, которые находятся дальше друг от друга.
- Манхэттенское расстояние – для снижения воздействия выбросов
- Дистанция власти – для увеличения/уменьшения влияния по конкретным координатам
- процент несогласия – для категориальных данных
- и так далее.
Например, для первого потребителя
Принадлежность к центроидам (последний столбец) рассчитывается на основе близости к центроидам (C1 и C2).
Первый потребитель находится ближе к центроиду №1 (1,41 по сравнению с 2,24) и, следовательно, принадлежит кластеру с центроидом C1.
Ниже приведен график, иллюстрирующий центроиды C1 и C2 (показаны сине-оранжевым ромбом).
Потребители изображаются цветом соответствующего центроида, к которому они отнесены.
Поскольку мы выбрали центроиды случайным образом, второй шаг — сделать этот выбор итеративным.
Новое положение центроида выбирается как среднее для точек соответствующего кластера.
Так, например, для первого центроида (это потребители 1, 2 и 3).
Следовательно, новая координата x для центроида C1 — это средняя координата x этих потребителей (2+1+1)/3 = 1,33. Мы получим новые координаты для C1 (1.33, 2.33) и C2 (4.4, 4.2).
Новый график ниже:
Наконец, мы разместим центроиды в центре соответствующего кластера.
График ниже:
Положения наших черных дыр (центров скоплений) в нашем примере — C1 (1,75, 2,25) и C2 (4,75, 4,75).
Два скопления выше подобны двум галактикам, отделенным друг от друга в пространстве.
Итак, давайте посмотрим на примеры дальше.
Перед нами стоит задача сегментировать потребителей по двум параметрам: возрасту и доходу.
Допустим, у нас есть два потребителя в возрасте 37 и 44 лет с доходами 90 000 и 62 000 долларов США соответственно.
Если мы захотим измерить евклидово расстояние между точками (37,90000) и (44,62000), мы увидим, что в этом случае переменная дохода «доминирует» над переменной возраста и ее изменение сильно влияет на расстояние.
Нам нужна некая стратегия для решения этой проблемы, иначе наш анализ даст неверный результат. Решение этой проблемы — привести наши ценности к сопоставимым масштабам.
Нормализация — это решение нашей проблемы.
Нормализация данных
Существует множество подходов к нормализации данных.Например, нормализация минимум-максимум.
Для этой нормализации используется следующая формула
в данном случае X* — нормированное значение, min и max — минимальная и максимальная координаты по всему множеству X
(Обратите внимание, что эта формула помещает все координаты в отрезок [0;1])
Давайте посмотрим на наш пример, скажем, максимальный доход составляет 130 000 долларов США, а минимальный — 45 000 долларов США.
Нормализованное значение дохода для потребителя А равно
Мы проделаем это упражнение для всех точек каждой переменной (координат).
Доход для второго потребителя (62000) после процедуры нормализации станет 0,2. Кроме того, пусть минимальный и максимальный возраст составит 23 и 58 лет соответственно.
После нормализации возраст двух наших потребителей составит 0,4 и 0,6. Легко заметить, что все наши данные теперь находятся между значениями 0 и 1. Таким образом, теперь у нас есть нормализованные наборы данных в сопоставимых масштабах.
Помните, перед процедурой кластерного анализа необходимо провести нормализацию.
Нашел статью Кузнецовин Теги: #Большие данные #кластерный анализ #кластерный анализ #сегментация клиентов #Интеллектуальный анализ данных #Интеллектуальный анализ данных #Большие данные
-
Советы По Конвертации Mp4 В Wmv
19 Oct, 24 -
Интересное В Закладках Ux/Ui Дизайнера
19 Oct, 24 -
Нейронные Сети Против Глазных Вычислений
19 Oct, 24 -
Liveandroid 0.3 Выпущен
19 Oct, 24