Реализация Кластеризации K-Средних В Python (С Визуализацией)

Кластеризация — это разделение набора объектов на подмножества, называемые кластерами.

Кластеризация, являясь математическим алгоритмом, имеет широкое применение во многих областях: от естественно-научных областей, таких как биология и физиология, до маркетинга в социальных сетях и поисковой оптимизации.

Существует множество алгоритмов кластеризации, но ниже будет рассмотрен метод k-средних, поскольку он является наиболее кратким и простым для понимания.

K-средства кластеризации: Первоначальной задачей будет распределение произвольного количества n-мерных точек на k кластеров.

  1. k точек создаются случайным образом; впредь мы будем называть их кластерными центрами;
  2. Для каждой точки назначается ближайший к ней центр кластера;
  3. Вычисляются средние арифметические точек, принадлежащих конкретному кластеру.

    Именно эти ценности становятся новыми центрами кластеров;

  4. Шаги 2 и 3 повторяются до тех пор, пока пересчет центров кластеров не принесет результатов.

    Как только рассчитанные центры кластеров совпадут с предыдущими, алгоритм завершается.

Приступим к реализации алгоритма: Входные данные алгоритма:
  • n — количество строк;
  • k — количество кластеров;
  • dim — размерность точек (пространство).

Вывод алгоритма:
  • кластер — двумерный массив размерности dim * k, содержащий k точек — центры кластеров;
  • Cluster_content — массив, содержащий k массивов — массивы точек, принадлежащих соответствующему кластеру.

   

def clusterization(array, k):

Теги: #python #обучение #анализ данных #учебник #кластеризация #Интеллектуальный анализ данных #алгоритм #визуализация #анализ данных Python #метод k-средних
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.