Agrupación en clústeres

10 minutos

Nota:

Consulte la pestaña Texto e imágenes para obtener más detalles.

La agrupación en clústeres es una forma de aprendizaje automático no supervisado en el que las observaciones se agrupan en clústeres en función de las similitudes en sus valores de datos o características. Este tipo de aprendizaje automático se considera no supervisado porque no usa valores de etiqueta conocidos anteriormente para entrenar un modelo. En un modelo de agrupación en clústeres, la etiqueta es el clúster al que se asigna la observación, basándose exclusivamente en sus características.

Ejemplo: agrupación en clústeres

Por ejemplo, supongamos que un botánico observa una muestra de flores y registra el número de hojas y pétalos en cada flor:

Diagrama de algunas flores.

No hay etiquetas conocidas en el conjunto de datos, solo dos características. El objetivo es no identificar los diferentes tipos (especies) de flor; sólo para agrupar flores similares en función del número de hojas y pétalos.

Hojas (x₁)	Pétalos (x₂)
0	5
0	6
1	3
1	3
1	6
1	8
2	3
2	7
2	8

Entrenamiento de un modelo de agrupación en clústeres

Hay varios algoritmos que puede usar para la agrupación en clústeres. Uno de los algoritmos más usados es la agrupación en clústeres K-Means , que consta de los pasos siguientes:

Los valores de la característica (x) se vectorizan para definir coordenadas n dimensionales (donde n es el número de características). En el ejemplo de flor, tenemos dos características: número de hojas (x₁) y número de pétalos (x₂). Por lo tanto, el vector de características tiene dos coordenadas que podemos usar para trazar conceptualmente los puntos de datos en el espacio bidimensional ([x_1,x₂])
Decide cuántos clústeres desea usar para agrupar las flores: llame a este valor k. Por ejemplo, para crear tres clústeres, usaría un valor k de 3. A continuación, los puntos k se trazan en coordenadas aleatorias. Estos puntos se convierten en los puntos centrales de cada clúster, por lo que se denominan centroides.
Cada punto de datos (en este caso, cada flor) se asigna a su centroide más cercano.
Cada centroide se mueve al centro de los puntos de datos asignados en función de la distancia media entre los puntos.
Si el centroide se mueve, los puntos de datos estarán más cerca de otro centroide, por lo que se reasignan a los clústeres en función del nuevo centroide más cercano.
Los pasos de movimiento de centroides y reasignación de clústeres se repiten hasta que los clústeres se estabilizan o se alcanza un número máximo predeterminado de iteraciones.

En la siguiente animación se ilustra este proceso:

Diagrama de una animación que muestra el proceso de agrupación en clústeres k-means.

Evaluación de un modelo de agrupación en clústeres

Puesto que no hay ninguna etiqueta conocida con la que comparar las asignaciones de clúster predichos, la evaluación de un modelo de agrupación en clústeres se basa en la forma en que los clústeres resultantes se separan entre sí.

Hay varias métricas que puede usar para evaluar la separación del clúster, entre las que se incluyen:

Distancia media al centro de clústeres: cuánto se aproxima, en promedio, cada punto del clúster es al centroide del clúster.
Distancia media a otro centro: cómo se aproxima, en promedio, cada punto del clúster es al centroide de todos los demás clústeres.
Distancia máxima al centro del clúster: la distancia más lejana entre un punto del clúster y su centroide.
Silueta: un valor entre -1 y 1 que resume la relación de distancia entre puntos del mismo clúster y puntos de diferentes clústeres (cuanto más cerca de 1, mejor será la separación del clúster).

Comentarios

¿Le ha resultado útil esta página?