Raggruppamento

Completato

Annotazioni

Per altri dettagli, vedi la scheda Testo e immagini .

Il clustering è una forma di Machine Learning non supervisionato in cui le osservazioni vengono raggruppate in cluster in base alle analogie nei valori dei dati o alle funzionalità. Questo tipo di Machine Learning viene considerato non supervisionato perché non usa valori di etichetta noti in precedenza per eseguire il training di un modello. In un modello di clustering, l'etichetta può essere considerata come il cluster a cui viene assegnata l'osservazione, esclusivamente in base alle sue caratteristiche.

Esempio - Raggruppamento

Si supponga, ad esempio, che un botanico osservi un campione di fiori e registri il numero di foglie e petali su ogni fiore:

Diagramma di alcuni fiori.

Nel set di dati non sono presenti etichette note, ma solo due funzionalità. L'obiettivo non è quello di identificare i diversi tipi (specie) di fiore; solo per raggruppare fiori simili in base al numero di foglie e petali.

Foglie (x1) Petali (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Training di un modello di clustering

Per il clustering è possibile usare numerosi algoritmi. Uno degli algoritmi più usati è il clustering K-Means , costituito dai passaggi seguenti:

  1. I valori della funzionalità (x) vengono vettorizzati per definire coordinate n-dimensionali (dove n è il numero di caratteristiche). Nell'esempio di fiore sono disponibili due caratteristiche: numero di foglie (x1) e numero di petali (x2). Il vettore di funzionalità ha quindi due coordinate che è possibile usare per tracciare concettualmente i punti dati nello spazio bidimensionale ([x1,x2])
  2. Si decide quanti cluster si desidera usare per raggruppare i fiori, chiamare questo valore k. Ad esempio, per creare tre cluster, usare un valore k pari a 3. I punti k vengono quindi tracciati a coordinate casuali. Questi punti diventano i punti centrali per ogni cluster, quindi sono chiamati centroidi.
  3. Ogni punto dati (in questo caso un fiore) viene assegnato al centroide più vicino.
  4. Ogni centroide viene spostato al centro dei punti dati assegnati in base alla distanza media tra i punti.
  5. Dopo aver spostato il centroide, è possibile che i punti dati risultino più vicini a un centroide diverso, quindi vengono riassegnati ai cluster in base a tale centroide.
  6. I passaggi di spostamento dei centroidi e di riposizionamento dei cluster vengono ripetuti finché tutti i cluster diventano stabili o viene raggiunto un numero massimo predeterminato di iterazioni.

L'animazione seguente mostra questo processo:

Diagramma di un’animazione che mostra il processo di clustering K-means.

Valutazione di un modello di clustering

Poiché non esiste un'etichetta nota con cui confrontare le assegnazioni di cluster stimate, la valutazione di un modello di clustering si basa sulla modalità con cui i cluster risultanti sono separati l'uno dall'altro.

Esistono più metriche che è possibile usare per valutare la separazione dei cluster, tra cui:

  • Distanza media al centro del cluster: quanto è vicino, in media, ogni punto del cluster al centroide del cluster.
  • Distanza media verso gli altri centri: quanto è vicina, in media, ogni punto nel cluster al centroide di tutti gli altri cluster.
  • Distanza massima al centro del cluster: distanza più distante tra un punto nel cluster e il relativo centroide.
  • Silhouette: valore compreso tra -1 e 1 che riepiloga il rapporto di distanza tra punti nello stesso cluster e punti in cluster diversi (più vicino a 1, migliore è la separazione del cluster).