Összetevő: K-Means fürtözés
Ez a cikk bemutatja, hogyan használható a K-Means fürtözési összetevő az Azure Machine Learning Designerben egy nem betanított K-means fürtözési modell létrehozásához.
A K-közép az egyik legegyszerűbb és legismertebb nem felügyelt tanulási algoritmus. Az algoritmus számos gépi tanulási feladathoz használható, például:
- Rendellenes adatok észlelése.
- Szöveges dokumentumok fürtözése.
- Adathalmazok elemzése más besorolási vagy regressziós módszerek használata előtt.
Fürtözési modell létrehozásához a következőt kell használnia:
- Adja hozzá ezt az összetevőt a folyamathoz.
- Adathalmaz csatlakoztatása.
- Adja meg a paramétereket, például a várt fürtök számát, a fürtök létrehozásához használni kívánt távolságmetrikát stb.
Miután konfigurálta az összetevő hiperparamétereit, csatlakoztatja a nem betanított modellt a fürtmodell betanításához. Mivel a K-közép algoritmus nem felügyelt tanulási módszer, a címkeoszlop nem kötelező.
Ha az adatok címkét tartalmaznak, a címkeértékekkel irányíthatja a fürtök kiválasztását és a modell optimalizálását.
Ha az adatok nem rendelkezik címkével, az algoritmus olyan fürtöket hoz létre, amelyek a lehetséges kategóriákat jelölik, kizárólag az adatok alapján.
A K-eszközök fürtözésének ismertetése
A fürtözés általában iteratív technikákkal csoportosítja az adathalmazok eseteit hasonló jellemzőkkel rendelkező fürtökbe. Ezek a csoportosítások hasznosak az adatok feltárásához, az adatok rendellenességeinek azonosításához és végül az előrejelzések készítéséhez. A fürtözési modellek segíthetnek azonosítani az adathalmazok olyan kapcsolatait is, amelyeket nem biztos, hogy logikusan származtat a böngészéssel vagy egyszerű megfigyeléssel. Ezért a fürtözést gyakran használják a gépi tanulási feladatok korai fázisaiban, az adatok feltárására és a váratlan korrelációk felderítésére.
Ha a K-közép módszerrel konfigurál egy fürtözési modellt, meg kell adnia egy k célszámot, amely a modellben használni kívánt centroidok számát jelzi. A centroid az egyes fürtökre jellemző pont. A K-közép algoritmus minden bejövő adatpontot hozzárendel az egyik fürthöz a négyzetek fürtön belüli összegének minimalizálásával.
A betanítási adatok feldolgozásakor a K-közép algoritmus véletlenszerűen kiválasztott centroidok kezdeti készletével kezdődik. A centroidok kiindulópontként szolgálnak a fürtök számára, és Lloyd algoritmusát alkalmazzák a helyük iteratív finomítására. A K-közép algoritmus leállítja a fürtök készítését és finomítását, ha megfelel az alábbi feltételek közül egynek:
A centroidok stabilizálódnak, ami azt jelenti, hogy az egyes pontok fürthozzárendelései már nem változnak, és az algoritmus konvergál egy megoldáson.
Az algoritmus befejezte a megadott számú iteráció futtatását.
Miután elvégezte a betanítási fázist, az Adatok hozzárendelése a fürtökhöz összetevővel új eseteket rendelhet az egyik olyan fürthöz, amelyet a K-közép algoritmussal talált. A fürthozzárendelést az új eset és az egyes fürtök centroidja közötti távolság kiszámításával hajthatja végre. Minden új eset a legközelebbi centroidot tartalmazó fürthöz van rendelve.
A K-Means fürtszolgáltatás-összetevő konfigurálása
Adja hozzá a K-Means fürtszolgáltatás összetevőt a folyamathoz.
A modell betanítási módjának megadásához válassza az Oktatói mód létrehozása lehetőséget.
- Egyetlen paraméter: Ha ismeri a fürtözési modellben használni kívánt pontos paramétereket, argumentumként megadhat egy adott értékkészletet.
A centroidok száma mezőbe írja be az algoritmus által használni kívánt fürtök számát.
A modell nem garantáltan pontosan ennyi fürtöt állít elő. Az algoritmus ekkora adatpontszámmal kezdődik, és iterálja az optimális konfigurációt. A sklearn forráskódjára hivatkozhat.
A tulajdonságok inicializálása a kezdeti fürtkonfiguráció meghatározásához használt algoritmus megadására szolgál.
Első N: Az adathalmazból néhány kezdeti számú adatpontot választunk ki, és a kezdeti eszközként használjuk.
Ezt a metódust Forgy metódusnak is nevezik.
Véletlenszerű: Az algoritmus véletlenszerűen helyez el egy adatpontot egy fürtben, majd kiszámítja a fürt véletlenszerűen hozzárendelt pontjainak centroidjának kezdeti középértékét.
Ezt a metódust véletlenszerű partíciós metódusnak is nevezik.
K-Means++: Ez a fürtök inicializálásának alapértelmezett módszere.
A K-means++ algoritmust David Arthur és Sergei Vassilvitskii javasolta 2007-ben, hogy elkerülje a gyenge fürtözést a standard K-közép algoritmussal. A K-means++ a standard K-eszközökkel javítja a kezdeti fürtközpontok kiválasztásának egy másik módszerét.
Véletlenszámú magok esetén opcionálisan írjon be egy értéket, amelyet a fürt inicializálásának magjaként szeretne használni. Ez az érték jelentős hatással lehet a fürt kiválasztására.
A Metrika esetében válassza ki a fürtvektorok közötti távolság mérésére, illetve az új adatpontok és a véletlenszerűen kiválasztott centroid közötti távolság mérésére szolgáló függvényt. Az Azure Machine Learning a következő fürttávmetrikákat támogatja:
- Euklideszi: Az euklideszi távolságot gyakran használják a fürt pontjának mérésére a K-középfürtökhöz. Ez a metrika előnyben részesített, mert minimálisra csökkenti a pontok és a centroidok közötti átlagos távolságot.
Iterációk esetén írja be, hogy az algoritmusnak hányszor kell iterálnia a betanítási adatokon, mielőtt véglegesíti a centroidok kiválasztását.
Ezt a paramétert úgy módosíthatja, hogy kiegyensúlyozza a betanítási idő pontosságát.
A Címke hozzárendelése módhoz válasszon egy lehetőséget, amely meghatározza, hogy hogyan kell kezelni egy címkeoszlopot, ha az szerepel az adathalmazban.
Mivel a K-közép fürtözés nem felügyelt gépi tanulási módszer, a címkék nem kötelezőek. Ha azonban az adathalmaz már rendelkezik címkeoszloppal, ezekkel az értékekkel irányíthatja a fürtök kiválasztását, vagy megadhatja, hogy az értékek figyelmen kívül hagyhatók legyenek.
Címkeoszlop figyelmen kívül hagyása: A címkeoszlop értékeit a rendszer figyelmen kívül hagyja, és nem használja a modell létrehozásához.
Hiányzó értékek kitöltése: A címkeoszlop értékei funkcióként szolgálnak a fürtök létrehozásához. Ha bármelyik sorból hiányzik egy címke, az érték más funkciókkal lesz imputált.
Felülírás a legközelebbitől a közepéig: A címkeoszlop értékeit előrejelzett címkeértékek váltják fel az aktuális centroidhoz legközelebbi pont címkéjével.
Válassza a Szolgáltatások normalizálása lehetőséget, ha a betanítás előtt normalizálni szeretné a funkciókat.
Ha normalizálást alkalmaz, a betanítás előtt az adatpontokat a MinMaxNormalizer normalizálja
[0,1]
.A modell betanítása.
- Ha egyetlen paraméterre állítja a Kiképző létrehozása módot, vegyen fel egy címkézett adatkészletet, és tanítsa be a modellt a Fürtmodell betanítása összetevővel.
Results (Eredmények)
Miután befejezte a modell konfigurálását és betanítását, rendelkezik egy olyan modellel, amellyel pontszámokat hozhat létre. A modell betanítása azonban több módon is lehetséges, és az eredmények megtekintésének és használatának több módja is van:
Pillanatkép készítése a modellről a munkaterületen
Ha a Fürtmodell betanítása összetevőt használta:
Válassza ki a Fürtmodell betanítása összetevőt, és nyissa meg a jobb oldali panelt.
Válassza a Kimenetek lapot. A betanított modell másolatának mentéséhez válassza az Adathalmaz regisztrálása ikont.
A mentett modell a modell mentésekor megadott betanítási adatokat jelöli. Ha később frissíti a folyamatban használt betanítási adatokat, az nem frissíti a mentett modellt.
A fürtözés eredményadatkészletének megtekintése
Ha a Fürtmodell betanítása összetevőt használta:
Kattintson a jobb gombbal a Fürtmodell betanítása összetevőre.
Válassza a Vizualizáció lehetőséget.
Tippek a legjobb fürtözési modell létrehozásához
Ismeretes, hogy a fürtözés során használt magvetési folyamat jelentősen befolyásolhatja a modellt. A vetés a pontok kezdeti elhelyezését jelenti a potenciális centroidokba.
Ha például az adathalmaz sok kiugró értéket tartalmaz, és egy kiugró érték van kiválasztva a fürtök magvetéséhez, akkor más adatpontok nem férnek el jól az adott fürthöz, és a fürt egyetlen adategység is lehet. Vagyis lehet, hogy csak egy pontja van.
Ezt a problémát többféleképpen is elkerülheti:
Módosítsa a centroidok számát, és próbálkozzon több magértékel.
Több modell létrehozása, a metrika módosítása vagy további iterálás.
A fürtözési modellek esetén általában előfordulhat, hogy egy adott konfiguráció helyileg optimalizált fürtöket eredményez. Más szóval a modell által visszaadott fürtök készlete csak az aktuális adatpontoknak felel meg, és más adatokra nem általánosítható. Ha eltérő kezdeti konfigurációt használ, a K-közép metódus eltérő, kiváló konfigurációt találhat.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.