Кластеризация

Завершено

Кластеризация — это форма неуправляемого машинного обучения, в которой наблюдения группируются в кластеры на основе сходств в их значениях данных или функциях. Этот вид машинного обучения считается неконтролируемым, так как он не использует ранее известные значения меток для обучения модели. В модели кластеризация метка — это кластер, которому назначается наблюдение, только на основе его функций.

Пример — кластеризация

Например, предположим, ботаник наблюдает пример цветов и записывает количество листьев и лепестков на каждом цветке:

Diagram of some flowers.

В наборе данных нет известных меток. Цель заключается в том, чтобы не определять различные типы (виды) цветка; просто группировать похожие цветы вместе на основе количества листьев и лепестков.

Листья (x1) Лепестки (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Обучение модели кластеризации

Существует несколько алгоритмов, которые можно использовать для кластеризации. Чаще всего применяется кластеризация методом K-средних, которая состоит из следующих этапов.

  1. Значения функции (x) векторизированы для определения n-мерных координат (где n — число признаков). В примере цветка у нас есть два признака: количество листьев (x1) и количество лепестков (x2). Таким образом, вектор признаков имеет две координаты, которые можно использовать для концептуального построения точек данных в двухмерном пространстве ([x1,x 2])
  2. Вы решите, сколько кластеров вы хотите использовать для группировки цветов - вызовите это значение k. Например, чтобы создать три кластера, используется значение k, равное 3. После этого точки k строятся по случайным координатам. Эти точки становятся центрами для каждого кластера, поэтому они называются центроидами.
  3. Каждая точка данных (в данном случае цветок) назначается ближайшему центроиду.
  4. Каждый центроид перемещается в центр назначенных ему точек данных на основе среднего расстояния между точками.
  5. После перемещения центроида точки данных теперь могут быть ближе к другому центроиду, поэтому точки данных переназначаются кластерам на основе нового ближайшего центроида.
  6. Действия по перемещению центроидов и перемещению кластера повторяются до тех пор, пока кластеры не станут стабильными или предопределенным максимальным числом итераций.

Этот процесс показан на приведенной ниже анимации.

Diagram of an animation showing the k-means clustering process.

Оценка модели кластеризация

Так как нет известной метки, с которой можно сравнить прогнозируемые назначения кластера, оценка модели кластеризация основана на том, насколько хорошо результирующие кластеры отделены друг от друга.

Существует несколько метрик, которые можно использовать для оценки разделения кластера, в том числе:

  • Среднее расстояние к центру кластера: как близко, в среднем, каждая точка в кластере — центроид кластера.
  • Среднее расстояние к другому центру: как близко, в среднем, каждая точка в кластере — центроид всех остальных кластеров.
  • Максимальное расстояние к центру кластера: максимальное расстояние между точкой в кластере и его центроидом.
  • Силуэт: значение от -1 до 1, которое суммирует соотношение расстояния между точками в одном кластере и точками в разных кластерах (ближе к 1, чем лучше разделение кластера).