Evaluare tipuri diferite de grupare în clustere
Instruirea unui model de grupare
Există mai mulți algoritmi pe care-i puteți utiliza pentru grupare. Unul dintre algoritmii cel mai frecvent utilizați este mijloace K grupare care, în forma sa cea mai simplă, constă din următorii pași:
- Valorile caracteristicii sunt vectorizate pentru a defini coordonatele n-dimensionale (unde n este numărul de caracteristici). În exemplul de floare, avem două caracteristici: numărul de petale și numărul de frunze. Prin urmare, vectorul caracteristicii are două coordonate pe care le putem utiliza pentru a reprezenta conceptual punctele de date în spațiu bidimensional.
- Dvs. decideți câte clustere doriți să utilizați pentru a grupa florile - apelați această valoare k. De exemplu, pentru a crea trei clustere, utilizați un k valoarea 3. Apoi, k puncte sunt reprezentate la coordonate aleatoare. Aceste puncte devin punctele centrale pentru fiecare cluster, așa că se numesc centroidi.
- Fiecare punct de date (în acest caz, o floare) este atribuit celui mai apropiat centroid.
- Fiecare centroid este mutat în centrul punctelor de date atribuite, pe baza distanței medii dintre puncte.
- După mutarea centroidului, punctele de date pot fi acum mai aproape de un alt centroid, deci punctele de date sunt reatribuite clusterelor bazate pe cel mai apropiat centroid.
- Pașii de mișcare centroid și realocare cluster se repetă până când clusterele devin stabile sau se atinge un număr maxim de iterații predeterminat.
Următoarea animație arată acest proces:
Grupare ierarhică
Gruparea ierarhică este un alt tip de algoritm de grupare în care clusterele propriu-zise aparțin grupurilor mai mari, care aparțin unor grupuri chiar mai mari și așa mai departe. Rezultatul este că punctele de date pot fi grupate în grade de precizie diferite: cu un număr mare de grupuri foarte mici și precise sau un număr mic de grupuri mai mari.
De exemplu, dacă aplicăm gruparea la semnificațiile cuvintelor, este posibil să obținem un grup care conține adjective specifice emoțiilor ('supărat,' "fericit", etc.). Acest grup aparține unui grup care conține toate adjectivele legate de om ('fericit,' 'frumos,' 'tânăr'), care aparține unui grup chiar mai mare care conține toate adjectivele ('fericit,' 'verde,' frumos,' 'greu'și așa mai departe).
Gruparea ierarhică este utilă nu numai pentru împărțirea datelor în grupuri, ci înțelegerea relațiilor dintre aceste grupuri. Un avantaj major al grupării ierarhice este că nu necesită definirea în avans a numărului de clustere. Și, uneori, poate oferi rezultate mai interpretabile decât abordări nehierarhice. Dezavantajele majore sunt că aceste abordări pot dura mai mult timp pentru a calcula mai simplu decât abordările mai simple și, uneori, acestea nu sunt potrivite pentru seturi mari de date.