Klustring
Klustring är en form av oövervakad maskininlärning där observationer grupperas i kluster baserat på likheter i deras datavärden eller funktioner. Den här typen av maskininlärning anses vara oövervakad eftersom den inte använder tidigare kända etikettvärden för att träna en modell. I en klustringsmodell är etiketten det kluster som observationen tilldelas till, endast baserat på dess funktioner.
Exempel – klustring
Anta till exempel att en botaniker observerar ett urval av blommor och registrerar antalet blad och kronblad på varje blomma:
Det finns inga kända etiketter i datauppsättningen, bara två funktioner. Målet är inte att identifiera de olika typerna (arten) av blomman; bara för att gruppera liknande blommor tillsammans baserat på antalet blad och kronblad.
Blad (x1) | Kronblad (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Träna en klustermodell
Det finns flera algoritmer som du kan använda för klustring. En av de vanligaste algoritmerna är K-Means-klustring , som består av följande steg:
- Funktionsvärdena (x) är vektoriserade för att definiera n-dimensionella koordinater (där n är antalet funktioner). I blomexemplet har vi två funktioner: antalet blad (x1) och antalet kronblad (x2). Funktionsvektorn har därför två koordinater som vi kan använda för att konceptuellt rita datapunkterna i tvådimensionellt utrymme ([x1,x 2])
- Du bestämmer hur många kluster du vill använda för att gruppera blommorna – anropa det här värdet k. Om du till exempel vill skapa tre kluster använder du ett k-värde på 3. Sedan ritas k-punkter vid slumpmässiga koordinater. Dessa punkter blir centrumpunkterna för varje kluster, så de kallas centroider.
- Varje datapunkt (i det här fallet en blomma) tilldelas till sin närmaste centroid.
- Varje centroid flyttas till mitten av de tilldelade datapunkterna baserat på medelvärdet mellan punkterna.
- När centroiden har flyttats kan datapunkterna nu vara närmare en annan centroid, så datapunkterna omtilldelas till kluster baserat på den nya närmaste centroiden.
- Centroidförflyttnings- och klusterförflyttningsstegen upprepas tills klustren blir stabila eller ett fördefinierat maximalt antal iterationer uppnås.
Följande animering visar den här processen:
Utvärdera en klustermodell
Eftersom det inte finns någon känd etikett som du kan jämföra de förutsagda klustertilldelningarna med baseras utvärderingen av en klustringsmodell på hur väl de resulterande klustren separeras från varandra.
Det finns flera mått som du kan använda för att utvärdera klusterseparation, inklusive:
- Genomsnittligt avstånd till klustercenter: Hur nära varje punkt i klustret i genomsnitt är till klustrets centroid.
- Genomsnittligt avstånd till andra center: Hur nära i genomsnitt varje punkt i klustret är till centroiden för alla andra kluster.
- Maximalt avstånd till klustercenter: Det längsta avståndet mellan en punkt i klustret och dess centroid.
- Silhuett: Ett värde mellan -1 och 1 som sammanfattar avståndet mellan punkter i samma kluster och punkter i olika kluster (Ju närmare 1, desto bättre är klusterseparationen).