Кластеризация

10 мин

Кластеризация — это форма неуправляемого машинного обучения, в которой наблюдения группируются в кластеры на основе сходств в их значениях данных или функциях. Этот вид машинного обучения считается неконтролируемым, так как он не использует ранее известные значения меток для обучения модели. В модели кластеризация метка — это кластер, которому назначается наблюдение, только на основе его функций.

Пример — кластеризация

Например, предположим, ботаник наблюдает пример цветов и записывает количество листьев и лепестков на каждом цветке:

Diagram of some flowers.

В наборе данных нет известных меток. Цель заключается в том, чтобы не определять различные типы (виды) цветка; просто группировать похожие цветы вместе на основе количества листьев и лепестков.

Листья (x₁)	Лепестки (x₂)
0	5
0	6
1	3
1	3
1	6
1	8
2	3
2	7
2	8

Обучение модели кластеризации

Существует несколько алгоритмов, которые можно использовать для кластеризации. Чаще всего применяется кластеризация методом K-средних, которая состоит из следующих этапов.

Значения функции (x) векторизированы для определения n-мерных координат (где n — число признаков). В примере цветка у нас есть два признака: количество листьев (x₁) и количество лепестков (x_2). Таким образом, вектор признаков имеет две координаты, которые можно использовать для концептуального построения точек данных в двухмерном пространстве ([x_{1,x 2}])
Вы решите, сколько кластеров вы хотите использовать для группировки цветов - вызовите это значение k. Например, чтобы создать три кластера, используется значение k, равное 3. После этого точки k строятся по случайным координатам. Эти точки становятся центрами для каждого кластера, поэтому они называются центроидами.
Каждая точка данных (в данном случае цветок) назначается ближайшему центроиду.
Каждый центроид перемещается в центр назначенных ему точек данных на основе среднего расстояния между точками.
После перемещения центроида точки данных теперь могут быть ближе к другому центроиду, поэтому точки данных переназначаются кластерам на основе нового ближайшего центроида.
Действия по перемещению центроидов и перемещению кластера повторяются до тех пор, пока кластеры не станут стабильными или предопределенным максимальным числом итераций.

Этот процесс показан на приведенной ниже анимации.

Diagram of an animation showing the k-means clustering process.

Оценка модели кластеризация

Так как нет известной метки, с которой можно сравнить прогнозируемые назначения кластера, оценка модели кластеризация основана на том, насколько хорошо результирующие кластеры отделены друг от друга.

Существует несколько метрик, которые можно использовать для оценки разделения кластера, в том числе:

Среднее расстояние к центру кластера: как близко, в среднем, каждая точка в кластере — центроид кластера.
Среднее расстояние к другому центру: как близко, в среднем, каждая точка в кластере — центроид всех остальных кластеров.
Максимальное расстояние к центру кластера: максимальное расстояние между точкой в кластере и его центроидом.
Силуэт: значение от -1 до 1, которое суммирует соотношение расстояния между точками в одном кластере и точками в разных кластерах (ближе к 1, чем лучше разделение кластера).

Продолжить

Пример — кластеризация

Обучение модели кластеризации

Оценка модели кластеризация

Обратная связь