Agrupación en clústeres
La agrupación en clústeres es un tipo de aprendizaje automático sin supervisión en el que las observaciones se agrupan en clústeres en función de las similitudes en sus valores de datos o características. Este tipo de aprendizaje automático se considera no supervisado, ya que no usa valores conocidos anteriormente como etiqueta para entrenar un modelo. En un modelo de agrupación en clústeres, la etiqueta es el clúster al que se asigna la observación, basándose exclusivamente en sus características.
Ejemplo: agrupación en clústeres
Por ejemplo, supongamos que un botánico observa una muestra de flores y registra el número de pétalos y hojas en cada flor:
No hay etiquetas conocidas en el conjunto de datos, solo dos características. El objetivo no es identificar los distintos tipos (especies) de flor, solo agrupar flores similares basándose en el número de hojas y pétalos.
Hojas (x1) | Pétalos (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Entrenamiento de un modelo de agrupación en clústeres
Hay varios algoritmos que puede usar para la agrupación en clústeres. Uno de los algoritmos más usados es la agrupación en clústeres k-means, que comprende los pasos siguientes:
- Los valores de la característica (x) se vectorizan para definir coordenadas de n dimensiones (donde n es el número de características). En el ejemplo de la flor, tenemos dos características: número de hojas (x1) y número de pétalos (x2). Por consiguiente, el vector de características tiene dos coordenadas que se pueden usar para trazar conceptualmente los puntos de datos en un espacio bidimensional ([x1,x2])
- Usted decide cuántos clústeres quiere usar para agrupar las flores: llame a este valor k. Por ejemplo, para crear tres clústeres, usaría un valor k de 3. Después, se representan los puntos k en coordenadas aleatorias. Estos puntos se convierten en los puntos centrales de cada clúster, por lo que se denominan centroides.
- Cada punto de datos (en este caso, cada flor) se asigna a su centroide más cercano.
- Cada centroide se mueve al centro de los puntos de datos asignados en función de la distancia media entre los puntos.
- Si el centroide se mueve, los puntos de datos estarán más cerca de otro centroide, por lo que se reasignan a los clústeres en función del nuevo centroide más cercano.
- Los pasos de movimiento de centroides y reasignación de clústeres se repiten hasta que los clústeres se estabilizan o se alcanza un número máximo predeterminado de iteraciones.
En la siguiente animación se ilustra este proceso:
Evaluación de un modelo de clústeres
Puesto que no hay ninguna etiqueta conocida con la que comparar las asignaciones de clúster previstas, la evaluación de un modelo de agrupación en clústeres se basa en el nivel de separación entre sí de los clústeres resultantes.
Hay varias métricas que puede usar para evaluar la separación del clúster, entre las que se incluyen:
- Distancia media al centro del clúster: la proximidad media de cada punto del clúster al centroide del clúster.
- Distancia media a otro centro: la distancia media entre cada punto del clúster y el centroide de todos los demás clústeres.
- Distancia máxima al centro del clúster: la distancia más lejana entre un punto del clúster y su centroide.
- Silueta: un valor entre -1 y 1 que resume la relación de distancia entre puntos del mismo clúster y puntos de diferentes clústeres (cuanto más cerca de 1, mejor será la separación del clúster).