¿Qué es la agrupación en clústeres?

Completado

La agrupación en clústeres es un tipo de aprendizaje automático sin supervisión en el que las observaciones se agrupan en clústeres en función de las similitudes en sus valores de datos o características. Este tipo de aprendizaje automático se considera no supervisado, ya que no usa valores conocidos anteriormente como etiqueta para entrenar un modelo. En un modelo de agrupación en clústeres, la etiqueta es el clúster al que se asigna la observación, basándose exclusivamente en sus características.

Por ejemplo, supongamos que un botánico observa una muestra de flores y registra el número de pétalos y hojas en cada flor.

Illustration showing a collection of flowers with different numbers of petals and leaves.

Puede ser útil agrupar estas flores en clústeres en función de las similitudes entre sus características.

Hay muchas maneras de determinar esta agrupación. Por ejemplo, si la mayoría de las flores tienen el mismo número de hojas, podrían agruparse en flores con muchos o pocos pétalos. Por otra parte, si el número de pétalos y hojas varía considerablemente, puede haber un patrón que detectar, como que las flores con muchas hojas también tienen muchos pétalos. El objetivo del algoritmo de agrupación en clústeres es encontrar la manera óptima de dividir el conjunto de datos en grupos. El significado de óptima depende del algoritmo utilizado y del conjunto de datos que se proporciona.

Aunque este ejemplo de la flor es fácil de categorizar con solo unas pocas muestras, a medida que el conjunto de datos crece a miles de muestras o a más de dos características, los algoritmos de agrupación en clústeres se vuelven útiles para clasificar rápidamente un conjunto de datos en grupos.