Klyngedannelse
Notat
Se fanen Tekst og billeder for flere detaljer!
Klynger er en form for ikke-overvåget maskinel indlæring, hvor observationer grupperes i klynger baseret på ligheder i deres dataværdier eller funktioner. Denne type maskinel indlæring betragtes som ikke-overvåget, fordi den ikke bruger tidligere kendte mærkatværdier til at oplære en model. I en klyngemodel er mærkaten den klynge, som observationen er tildelt, kun baseret på dens funktioner.
Eksempel – klyngedannelse
Antag f.eks., at en botaniker observerer en prøve af blomster og registrerer antallet af blade og kronblade på hver blomst:
Der er ingen kendte mærkater i datasættet, kun to funktioner. Målet er ikke at identificere de forskellige typer (arter) af blomst; bare for at gruppere lignende blomster sammen baseret på antallet af blade og kronblade.
| Blade (x1) | Kronblade (x2) |
|---|---|
| 0 | 5 |
| 0 | 6 |
| 1 | 3 |
| 1 | 3 |
| 1 | 6 |
| 1 | 8 |
| 2 | 3 |
| 2 | 7 |
| 2 | 8 |
Oplæring af en klyngemodel
Der er flere algoritmer, du kan bruge til klyngedannelse. En af de mest anvendte algoritmer er K-Means-klynger , som består af følgende trin:
- Funktionsværdierne (x) vektoriseres for at definere n-dimensionelle koordinater (hvor n er antallet af funktioner). I eksemplet med blomsten har vi to funktioner: antallet af blade (x1) og antallet af kronblade (x2). Funktionsvektoren har derfor to koordinater, som vi kan bruge til konceptuelt at afbilde datapunkterne i todimensionelt rum ([x1,x2])
- Du bestemmer, hvor mange klynger du vil bruge til at gruppere blomsterne – kald denne værdi k. Hvis du f.eks. vil oprette tre klynger, skal du bruge en k værdi på 3. Derefter afbildes k punkter ved tilfældige koordinater. Disse punkter bliver midtpunkterne for hver klynge, så de kaldes centroider.
- Hvert datapunkt (i dette tilfælde en blomst) tildeles den nærmeste centroid.
- Hver centroid flyttes til midten af de datapunkter, der er tildelt den, baseret på middelafstanden mellem punkterne.
- Når centroiden er flyttet, kan datapunkterne nu være tættere på et andet centroid, så datapunkterne omfordeles til klynger baseret på den nye nærmeste centroid.
- Trinnene til omfordeling af centroider og klynger gentages, indtil klyngerne bliver stabile, eller et forudbestemt maksimalt antal gentagelser nås.
Følgende animation viser denne proces:
Evaluering af en klyngemodel
Da der ikke er nogen kendt mærkat til sammenligning af de forudsagte klyngetildelinger, er evalueringen af en klyngemodel baseret på, hvor godt de resulterende klynger er adskilt fra hinanden.
Der er flere målepunkter, som du kan bruge til at evaluere klyngeadskillelse, herunder:
- Gennemsnitlig afstand til klyngecenter: Hvor tæt, i gennemsnit, hvert punkt i klyngen er på klyngens centroid.
- Gennemsnitlig afstand til andre centre: Hvor tæt, i gennemsnit, hvert punkt i klyngen er på centroiden af alle andre klynger.
- Maksimal afstand til klyngecenter: Den længste afstand mellem et punkt i klyngen og dens centroid.
- Silhouette: En værdi mellem -1 og 1, der opsummerer afstanden mellem punkter i den samme klynge og punkter i forskellige klynger (Jo tættere på 1, jo bedre er klyngeadskillelsen).