Vyhodnocení různých typů clusteringu
Trénování modelu clusteringu
Pro clustering můžete použít několik algoritmů. Jedním z nejčastěji používaných algoritmů je clustering K-Means , který se v nejjednodušší podobě skládá z následujících kroků:
- Hodnoty funkcí jsou vektorizovány k definování ndimenzionálních souřadnic (kde n je počet prvků). V příkladu květiny máme dvě funkce: počet okvětních okvětí a počet listů. Vektor funkce má tedy dvě souřadnice, které můžeme použít k koncepčnímu vykreslení datových bodů v dvojrozměrném prostoru.
- Rozhodnete se, kolik shluků chcete použít k seskupení květin – zavolejte tuto hodnotu k. Například k vytvoření tří clusterů byste použili hodnotu k 3. Pak se body k vykreslují na náhodných souřadnicích. Z těchto bodů se stanou středové body pro každý shluk, takže se označují jako centroidy.
- Každý datový bod (v tomto případě květina) je přiřazen k nejbližšímu centroidu.
- Každý centroid se přesune do středu datových bodů přiřazených na základě střední vzdálenosti mezi body.
- Po přesunutí centroidu mohou být datové body nyní blíže k jinému centroidu, takže datové body jsou znovu přiřazeny ke shlukům na základě nového nejbližšího centroidu.
- Kroky centroidového pohybu a relokace clusteru se opakují, dokud se clustery nepřestály nebo nedostanou předem určený maximální počet iterací.
Následující animace ukazuje tento proces:
Hierarchické clusteringy
Hierarchické clustering je dalším typem algoritmu clusteringu, ve kterém clustery patří do větších skupin, které patří do ještě větších skupin atd. Výsledkem je, že datové body mohou být shluky v různých stupních přesnosti: s velkým počtem velmi malých a přesných skupin nebo malým počtem větších skupin.
Pokud například použijeme shlukování na významy slov, můžeme získat skupinu obsahující adjektivní jména specifická pro emoce ("naštvaná", "šťastná" atd.). Tato skupina patří do skupiny obsahující všechna přídavná jména související s člověkem ("šťastná", "pohledná", "mladá"), která patří do ještě vyšší skupiny obsahující všechna adjektivní jména ("happy", "green", "handsome", "hard" atd.).
Hierarchické clusteringy jsou užitečné nejen pro rozdělení dat do skupin, ale také pochopení vztahů mezi těmito skupinami. Hlavní výhodou hierarchického clusteringu je, že nevyžaduje, aby byl předem definován počet clusterů. A někdy může poskytovat interpretovatelné výsledky než nehierarchické přístupy. Hlavní nevýhodou je, že tyto přístupy mohou trvat déle než jednodušší přístupy, a někdy nejsou vhodné pro velké datové sady.