Кластеризация — это разделение набора объектов на подмножества, называемые кластерами.
Кластеризация, являясь математическим алгоритмом, имеет широкое применение во многих областях: от естественно-научных областей, таких как биология и физиология, до маркетинга в социальных сетях и поисковой оптимизации.
Существует множество алгоритмов кластеризации, но ниже будет рассмотрен метод k-средних, поскольку он является наиболее кратким и простым для понимания.
K-средства кластеризации: Первоначальной задачей будет распределение произвольного количества n-мерных точек на k кластеров.
- k точек создаются случайным образом; впредь мы будем называть их кластерными центрами;
- Для каждой точки назначается ближайший к ней центр кластера;
- Вычисляются средние арифметические точек, принадлежащих конкретному кластеру.
Именно эти ценности становятся новыми центрами кластеров;
- Шаги 2 и 3 повторяются до тех пор, пока пересчет центров кластеров не принесет результатов.
Как только рассчитанные центры кластеров совпадут с предыдущими, алгоритм завершается.
- n — количество строк;
- k — количество кластеров;
- dim — размерность точек (пространство).
- кластер — двумерный массив размерности dim * k, содержащий k точек — центры кластеров;
- Cluster_content — массив, содержащий k массивов — массивы точек, принадлежащих соответствующему кластеру.
Теги: #python #обучение #анализ данных #учебник #кластеризация #Интеллектуальный анализ данных #алгоритм #визуализация #анализ данных Python #метод k-среднихdef clusterization(array, k):
Вместе с данным постом часто просматривают:
-
Бета-Тестирование Brainstorage
19 Oct, 24 -
Интервью Для Интервьюируемых
19 Oct, 24