Összetevő: K-Means fürtözés

2024-09-01

Ez a cikk bemutatja, hogyan használható a K-Means fürtözési összetevő az Azure Machine Learning Designerben egy nem betanított K-means fürtözési modell létrehozásához.

A K-közép az egyik legegyszerűbb és legismertebb nem felügyelt tanulási algoritmus. Az algoritmus számos gépi tanulási feladathoz használható, például:

Rendellenes adatok észlelése.
Szöveges dokumentumok fürtözése.
Adathalmazok elemzése más besorolási vagy regressziós módszerek használata előtt.

Fürtözési modell létrehozásához a következőt kell használnia:

Adja hozzá ezt az összetevőt a folyamathoz.
Adathalmaz csatlakoztatása.
Adja meg a paramétereket, például a várt fürtök számát, a fürtök létrehozásához használni kívánt távolságmetrikát stb.

Miután konfigurálta az összetevő hiperparamétereit, csatlakoztatja a nem betanított modellt a fürtmodell betanításához. Mivel a K-közép algoritmus nem felügyelt tanulási módszer, a címkeoszlop nem kötelező.

Ha az adatok címkét tartalmaznak, a címkeértékekkel irányíthatja a fürtök kiválasztását és a modell optimalizálását.
Ha az adatok nem rendelkezik címkével, az algoritmus olyan fürtöket hoz létre, amelyek a lehetséges kategóriákat jelölik, kizárólag az adatok alapján.

A K-eszközök fürtözésének ismertetése

A fürtözés általában iteratív technikákkal csoportosítja az adathalmazok eseteit hasonló jellemzőkkel rendelkező fürtökbe. Ezek a csoportosítások hasznosak az adatok feltárásához, az adatok rendellenességeinek azonosításához és végül az előrejelzések készítéséhez. A fürtözési modellek segíthetnek azonosítani az adathalmazok olyan kapcsolatait is, amelyeket nem biztos, hogy logikusan származtat a böngészéssel vagy egyszerű megfigyeléssel. Ezért a fürtözést gyakran használják a gépi tanulási feladatok korai fázisaiban, az adatok feltárására és a váratlan korrelációk felderítésére.

Ha a K-közép módszerrel konfigurál egy fürtözési modellt, meg kell adnia egy k célszámot, amely a modellben használni kívánt centroidok számát jelzi. A centroid az egyes fürtökre jellemző pont. A K-közép algoritmus minden bejövő adatpontot hozzárendel az egyik fürthöz a négyzetek fürtön belüli összegének minimalizálásával.

A betanítási adatok feldolgozásakor a K-közép algoritmus véletlenszerűen kiválasztott centroidok kezdeti készletével kezdődik. A centroidok kiindulópontként szolgálnak a fürtök számára, és Lloyd algoritmusát alkalmazzák a helyük iteratív finomítására. A K-közép algoritmus leállítja a fürtök készítését és finomítását, ha megfelel az alábbi feltételek közül egynek:

A centroidok stabilizálódnak, ami azt jelenti, hogy az egyes pontok fürthozzárendelései már nem változnak, és az algoritmus konvergál egy megoldáson.
Az algoritmus befejezte a megadott számú iteráció futtatását.

Miután elvégezte a betanítási fázist, az Adatok hozzárendelése a fürtökhöz összetevővel új eseteket rendelhet az egyik olyan fürthöz, amelyet a K-közép algoritmussal talált. A fürthozzárendelést az új eset és az egyes fürtök centroidja közötti távolság kiszámításával hajthatja végre. Minden új eset a legközelebbi centroidot tartalmazó fürthöz van rendelve.

A K-Means fürtszolgáltatás-összetevő konfigurálása

Adja hozzá a K-Means fürtszolgáltatás összetevőt a folyamathoz.
A modell betanítási módjának megadásához válassza az Oktatói mód létrehozása lehetőséget.
- Egyetlen paraméter: Ha ismeri a fürtözési modellben használni kívánt pontos paramétereket, argumentumként megadhat egy adott értékkészletet.
A centroidok száma mezőbe írja be az algoritmus által használni kívánt fürtök számát.

A modell nem garantáltan pontosan ennyi fürtöt állít elő. Az algoritmus ekkora adatpontszámmal kezdődik, és iterálja az optimális konfigurációt. A sklearn forráskódjára hivatkozhat.
A tulajdonságok inicializálása a kezdeti fürtkonfiguráció meghatározásához használt algoritmus megadására szolgál.
- Első N: Az adathalmazból néhány kezdeti számú adatpontot választunk ki, és a kezdeti eszközként használjuk.
  
  Ezt a metódust Forgy metódusnak is nevezik.
- Véletlenszerű: Az algoritmus véletlenszerűen helyez el egy adatpontot egy fürtben, majd kiszámítja a fürt véletlenszerűen hozzárendelt pontjainak centroidjának kezdeti középértékét.
  
  Ezt a metódust véletlenszerű partíciós metódusnak is nevezik.
- K-Means++: Ez a fürtök inicializálásának alapértelmezett módszere.
  
  A K-means++ algoritmust David Arthur és Sergei Vassilvitskii javasolta 2007-ben, hogy elkerülje a gyenge fürtözést a standard K-közép algoritmussal. A K-means++ a standard K-eszközökkel javítja a kezdeti fürtközpontok kiválasztásának egy másik módszerét.
Véletlenszámú magok esetén opcionálisan írjon be egy értéket, amelyet a fürt inicializálásának magjaként szeretne használni. Ez az érték jelentős hatással lehet a fürt kiválasztására.
A Metrika esetében válassza ki a fürtvektorok közötti távolság mérésére, illetve az új adatpontok és a véletlenszerűen kiválasztott centroid közötti távolság mérésére szolgáló függvényt. Az Azure Machine Learning a következő fürttávmetrikákat támogatja:
- Euklideszi: Az euklideszi távolságot gyakran használják a fürt pontjának mérésére a K-középfürtökhöz. Ez a metrika előnyben részesített, mert minimálisra csökkenti a pontok és a centroidok közötti átlagos távolságot.
Iterációk esetén írja be, hogy az algoritmusnak hányszor kell iterálnia a betanítási adatokon, mielőtt véglegesíti a centroidok kiválasztását.

Ezt a paramétert úgy módosíthatja, hogy kiegyensúlyozza a betanítási idő pontosságát.
A Címke hozzárendelése módhoz válasszon egy lehetőséget, amely meghatározza, hogy hogyan kell kezelni egy címkeoszlopot, ha az szerepel az adathalmazban.

Mivel a K-közép fürtözés nem felügyelt gépi tanulási módszer, a címkék nem kötelezőek. Ha azonban az adathalmaz már rendelkezik címkeoszloppal, ezekkel az értékekkel irányíthatja a fürtök kiválasztását, vagy megadhatja, hogy az értékek figyelmen kívül hagyhatók legyenek.
- Címkeoszlop figyelmen kívül hagyása: A címkeoszlop értékeit a rendszer figyelmen kívül hagyja, és nem használja a modell létrehozásához.
- Hiányzó értékek kitöltése: A címkeoszlop értékei funkcióként szolgálnak a fürtök létrehozásához. Ha bármelyik sorból hiányzik egy címke, az érték más funkciókkal lesz imputált.
- Felülírás a legközelebbitől a közepéig: A címkeoszlop értékeit előrejelzett címkeértékek váltják fel az aktuális centroidhoz legközelebbi pont címkéjével.
Válassza a Szolgáltatások normalizálása lehetőséget, ha a betanítás előtt normalizálni szeretné a funkciókat.

Ha normalizálást alkalmaz, a betanítás előtt az adatpontokat a MinMaxNormalizer normalizálja [0,1] .
A modell betanítása.
- Ha egyetlen paraméterre állítja a Kiképző létrehozása módot, vegyen fel egy címkézett adatkészletet, és tanítsa be a modellt a Fürtmodell betanítása összetevővel.

Results (Eredmények)

Miután befejezte a modell konfigurálását és betanítását, rendelkezik egy olyan modellel, amellyel pontszámokat hozhat létre. A modell betanítása azonban több módon is lehetséges, és az eredmények megtekintésének és használatának több módja is van:

Pillanatkép készítése a modellről a munkaterületen

Ha a Fürtmodell betanítása összetevőt használta:

Válassza ki a Fürtmodell betanítása összetevőt, és nyissa meg a jobb oldali panelt.
Válassza a Kimenetek lapot. A betanított modell másolatának mentéséhez válassza az Adathalmaz regisztrálása ikont.

A mentett modell a modell mentésekor megadott betanítási adatokat jelöli. Ha később frissíti a folyamatban használt betanítási adatokat, az nem frissíti a mentett modellt.

A fürtözés eredményadatkészletének megtekintése

Ha a Fürtmodell betanítása összetevőt használta:

Kattintson a jobb gombbal a Fürtmodell betanítása összetevőre.
Válassza a Vizualizáció lehetőséget.

Tippek a legjobb fürtözési modell létrehozásához

Ismeretes, hogy a fürtözés során használt magvetési folyamat jelentősen befolyásolhatja a modellt. A vetés a pontok kezdeti elhelyezését jelenti a potenciális centroidokba.

Ha például az adathalmaz sok kiugró értéket tartalmaz, és egy kiugró érték van kiválasztva a fürtök magvetéséhez, akkor más adatpontok nem férnek el jól az adott fürthöz, és a fürt egyetlen adategység is lehet. Vagyis lehet, hogy csak egy pontja van.

Ezt a problémát többféleképpen is elkerülheti:

Módosítsa a centroidok számát, és próbálkozzon több magértékel.
Több modell létrehozása, a metrika módosítása vagy további iterálás.

A fürtözési modellek esetén általában előfordulhat, hogy egy adott konfiguráció helyileg optimalizált fürtöket eredményez. Más szóval a modell által visszaadott fürtök készlete csak az aktuális adatpontoknak felel meg, és más adatokra nem általánosítható. Ha eltérő kezdeti konfigurációt használ, a K-közép metódus eltérő, kiváló konfigurációt találhat.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.