Klynging
Note
Se fanen Tekst og bilder for mer informasjon!
Klynger er en form for maskinlæring uten tilsyn der observasjoner grupperes i klynger basert på likheter i dataverdiene eller funksjonene. Denne typen maskinlæring anses som uovervåket fordi den ikke benytter seg av tidligere kjente etikettverdier for å lære opp en modell. I en klyngemodell er etiketten klyngen som observasjonen er tilordnet til, basert bare på funksjonene.
Eksempel – gruppering
Anta for eksempel at en botaniker observerer et utvalg av blomster og registrerer antall blader og kronblader på hver blomst:
Det finnes ingen kjente etiketter i datasettet, bare to funksjoner. Målet er ikke å identifisere de ulike typene (arter) av blomst; bare for å gruppere lignende blomster sammen basert på antall blader og kronblader.
| Blader (x1) | Kronblader (x2) |
|---|---|
| 0 | 5 |
| 0 | 6 |
| 1 | 3 |
| 1 | 3 |
| 1 | 6 |
| 1 | 8 |
| 2 | 3 |
| 2 | 7 |
| 2 | 8 |
Opplæring av en klyngemodell
Det finnes flere algoritmer du kan bruke til klynger. En av de mest brukte algoritmene er K-Means-klynger , som består av følgende trinn:
- Funksjonsverdiene (x) vektoriseres for å definere ndimensjonale koordinater (der n er antall funksjoner). I blomstereksemplet har vi to funksjoner: antall blader (x1) og antall kronblader (x2). Så funksjonsvektoren har to koordinater som vi kan bruke til å tegne inn datapunktene i todimensjonalt område ([x1,x2])
- Du bestemmer hvor mange klynger du vil bruke til å gruppere blomstene – kall denne verdien k. Hvis du for eksempel vil opprette tre klynger, bruker du en k verdi på 3. Deretter tegnes k punkter inn ved tilfeldige koordinater. Disse punktene blir midtpunktene for hver klynge, så de kalles centroider.
- Hvert datapunkt (i dette tilfellet en blomst) tilordnes til nærmeste centroid.
- Hver centroid flyttes til midten av datapunktene som er tilordnet til den, basert på middelavstanden mellom punktene.
- Etter at centroiden er flyttet, kan datapunktene nå være nærmere en annen centroid, slik at datapunktene tilordnes til klynger basert på den nye nærmeste centroid.
- Centroid bevegelse og klynge omfordeling trinnene gjentas til klyngene blir stabile eller et forhåndsbestemt maksimalt antall gjentakelser er nådd.
Følgende animasjon viser denne prosessen:
Evaluere en klyngemodell
Siden det ikke finnes noen kjent etikett som du kan sammenligne de forventede klyngetilordningene med, er evalueringen av en klyngemodell basert på hvor godt de resulterende klyngene er atskilt fra hverandre.
Det finnes flere måledata som du kan bruke til å evaluere klyngeseparasjon, inkludert:
- Gjennomsnittlig avstand til klyngesenteret: Hvor nær, i gjennomsnitt, hvert punkt i klyngen er til klyngen.
- Gjennomsnittlig avstand til andre sentrum: Hvor nær, i gjennomsnitt, hvert punkt i klyngen er til centroid av alle andre klynger.
- Maksimal avstand til klyngesenteret: Den lengste avstanden mellom et punkt i klyngen og klyngen.
- Silhuett: En verdi mellom -1 og 1 som oppsummerer avstanden mellom punkter i samme klynge og punkter i forskjellige klynger (Jo nærmere 1, jo bedre klyngeseparasjon).