Összetevő: K-Means fürtözés
Ez a cikk bemutatja, hogyan használható a K-Means fürtözési összetevő az Azure Machine Learning Designerben egy nem betanított K-közép fürtözési modell létrehozásához.
A K-közép az egyik legegyszerűbb és legismertebb nem felügyelt tanulási algoritmus. Az algoritmust számos gépi tanulási feladathoz használhatja, például:
- Rendellenes adatok észlelése.
- Szövegdokumentumok fürtözése.
- Adathalmazok elemzése más besorolási vagy regressziós módszerek használata előtt.
Fürtözési modell létrehozásához a következőt kell használnia:
- Adja hozzá ezt az összetevőt a folyamathoz.
- Adatkészlet csatlakoztatása.
- Adja meg a paramétereket, például a várt fürtök számát, a fürtök létrehozásához használni kívánt távolságmetrikát stb.
Miután konfigurálta az összetevő hiperparamétereit, csatlakoztatja a nem betanított modellt a fürtszolgáltatás-modell betanításához. Mivel a K-közép algoritmus nem felügyelt tanulási módszer, a címkeoszlop nem kötelező.
Ha az adatok tartalmaznak címkét, a címkeértékek segítségével kijelölheti a fürtöket, és optimalizálhatja a modellt.
Ha az adatok nem rendelkezik címkével, az algoritmus olyan fürtöket hoz létre, amelyek a lehetséges kategóriákat jelölik, kizárólag az adatok alapján.
A K-eszközök fürtözésének ismertetése
A fürtözés általában iteratív technikákkal csoportosítja az adathalmazokban lévő eseteket olyan fürtökké, amelyek hasonló jellemzőkkel rendelkeznek. Ezek a csoportosítások hasznosak az adatok feltárásához, az adatok rendellenességeinek azonosításához és végül az előrejelzések készítéséhez. A fürtözési modellek segítenek azonosítani az adathalmazok olyan kapcsolatait is, amelyeket nem biztos, hogy logikailag származtat a böngészéssel vagy egyszerű megfigyeléssel. Emiatt a fürtözést gyakran használják a gépi tanulási feladatok korai fázisaiban, az adatok feltárására és a váratlan korrelációk felderítésére.
Ha a K-közép metódussal konfigurál egy fürtözési modellt, meg kell adnia egy k célszámot, amely a modellben használni kívánt centroidok számát jelzi. A centroid az egyes fürtökre jellemző pont. A K-közép algoritmus minden bejövő adatpontot hozzárendel az egyik fürthöz a fürtön belüli négyzetek összegének minimalizálásával.
A betanítási adatok feldolgozásakor a K-közép algoritmus véletlenszerűen kiválasztott centroidok kezdeti készletével kezdődik. A centroidok kiindulópontként szolgálnak a fürtök számára, és Lloyd algoritmusát alkalmazzák a helyük iteratív finomítására. A K-közép algoritmus leállítja a fürtök összeállítását és finomítását, ha megfelel az alábbi feltételek valamelyikének:
A centroidok stabilizálódtak, ami azt jelenti, hogy az egyes pontok fürt-hozzárendelései már nem változnak, és az algoritmus konvergált egy megoldáson.
Az algoritmus befejezte a megadott számú iteráció futtatását.
A betanítási fázis befejezése után az Adatok hozzárendelése fürtökhöz összetevővel rendelhet új eseteket az egyik olyan fürthöz, amelyet a K-közép algoritmussal talált. A fürt hozzárendeléséhez számítsa ki az új eset és az egyes fürtök centroidja közötti távolságot. Minden új eset a fürthöz van rendelve a legközelebbi centroidtal.
A K-Means fürtözési összetevő konfigurálása
Adja hozzá a K-Means fürtözési összetevőt a folyamathoz.
A modell betanítási módjának megadásához válassza a Tréner mód létrehozása lehetőséget.
- Egyetlen paraméter: Ha ismeri a fürtözési modellben használni kívánt pontos paramétereket, argumentumként megadhat egy adott értékkészletet.
A Centroidok száma mezőbe írja be azoknak a fürtöknek a számát, amellyel kezdeni szeretné az algoritmust.
A modell nem garantálja, hogy pontosan ennyi fürtöt állít elő. Az algoritmus ekkora adatpontszámmal kezdődik, és iterál az optimális konfiguráció megtalálásához. Tekintse meg a sklearn forráskódját.
A tulajdonságok inicializálása a kezdeti fürtkonfiguráció meghatározásához használt algoritmus megadására szolgál.
Első N: Az adathalmazból néhány kezdeti adatpontot választunk ki, és kezdeti eszközként használjuk.
Ezt a metódust Forgy metódusnak is nevezik.
Véletlenszerű: Az algoritmus véletlenszerűen helyez el egy adatpontot egy fürtben, majd kiszámítja a kezdeti középértéket, hogy a fürt véletlenszerűen hozzárendelt pontjainak centroidja legyen.
Ezt a metódust véletlenszerű partíciós metódusnak is nevezik.
K-Means++: Ez a fürtök inicializálásának alapértelmezett módja.
A K-means++ algoritmust David Arthur és Sergei Vassilvitskii javasolta 2007-ben, hogy elkerülje a gyenge fürtözést a standard K-közép algoritmussal. A K-means++ a standard K-eszközök esetében egy másik módszerrel javítja a kezdeti fürtközpontok kiválasztását.
Véletlenszerű számmagok esetén adjon meg egy értéket, amelyet a fürt inicializálásának magjaként szeretne használni. Ez az érték jelentős hatással lehet a fürt kiválasztására.
A Metrika beállításnál válassza ki a fürtvektorok vagy az új adatpontok és a véletlenszerűen kiválasztott centroid közötti távolság méréséhez használni kívánt függvényt. Az Azure Machine Learning a következő fürttávmetrikákat támogatja:
- Euklideszi: Az euklideszi távolságot gyakran használják a fürt pontjának mérésére k-közép fürtözéshez. Ez a metrika azért ajánlott, mert minimálisra csökkenti a pontok és a centroidok közötti átlagos távolságot.
Iterációk esetén írja be, hogy az algoritmus hányszor legyen iterálva a betanítási adatokon, mielőtt véglegesíti a centroidok kiválasztását.
Ezt a paramétert úgy módosíthatja, hogy kiegyenlítse a pontosságot a betanítási idővel.
A Címke hozzárendelése mód beállításnál válassza ki azt a beállítást, amely meghatározza, hogyan kell kezelni egy címkeoszlopot, ha az szerepel az adathalmazban.
Mivel a K-közép fürtözés nem felügyelt gépi tanulási módszer, a címkék nem kötelezőek. Ha azonban az adathalmaz már rendelkezik címkeoszloppal, ezekkel az értékekkel irányíthatja a fürtök kiválasztását, vagy megadhatja, hogy az értékek figyelmen kívül legyenek hagyva.
Címkeoszlop figyelmen kívül hagyása: A címkeoszlop értékeit a rendszer figyelmen kívül hagyja, és nem használja a modell létrehozásához.
Hiányzó értékek kitöltése: A címkeoszlop értékei funkcióként szolgálnak a fürtök létrehozásához. Ha valamelyik sorból hiányzik egy címke, az érték más funkciókkal lesz imputált.
Felülírás a legközelebbitől a középig: A címkeoszlop értékeit előrejelzett címkeértékek váltják fel az aktuális centroidhoz legközelebbi pont címkéjével.
Ha a betanítás előtt normalizálni szeretné a funkciókat, válassza a Szolgáltatások normalizálása lehetőséget.
Ha normalizálást alkalmaz, a betanítás előtt az adatpontokat a MinMaxNormalizer normalizálja
[0,1]
.A modell betanítása.
- Ha a Create trainer mode (Oktatói mód létrehozása) beállítástegyetlen paraméterre állítja, adjon hozzá egy címkézett adatkészletet, és a fürtözési modell betanítása összetevővel tanítsa be a modellt.
Results (Eredmények)
Miután végzett a modell konfigurálásával és betanításával, rendelkezik egy olyan modellel, amellyel pontszámokat hozhat létre. A modell betanítása azonban többféleképpen is lehetséges, és többféleképpen is megtekintheti és használhatja az eredményeket:
A modell pillanatképének rögzítése a munkaterületen
Ha a Fürtözési modell betanítása összetevőt használta:
Válassza a Fürtmodell betanítása összetevőt, és nyissa meg a jobb oldali panelt.
Válassza a Kimenetek lapot. A betanított modell másolatának mentéséhez válassza az Adathalmaz regisztrálása ikont.
A mentett modell a modell mentésekor megadott betanítási adatokat jelöli. Ha később frissíti a folyamatban használt betanítási adatokat, az nem frissíti a mentett modellt.
A fürtözés eredményadatkészletének megtekintése
Ha a Fürtözési modell betanítása összetevőt használta:
Kattintson a jobb gombbal a Fürtmodell betanítása összetevőre.
Válassza a Vizualizáció lehetőséget.
Tippek a legjobb fürtözési modell létrehozásához
Ismert, hogy a fürtözés során használt magvetési folyamat jelentősen befolyásolhatja a modellt. A vetés azt jelenti, hogy a pontok kezdeti elhelyezése lehetséges centroidokba.
Ha például az adathalmaz sok kiugró értéket tartalmaz, és egy kiugró érték van kiválasztva a fürtök bevetéséhez, akkor más adatpontok nem férnek el jól az adott fürthöz, és a fürt egyetlen adategység lehet. Vagyis lehet, hogy csak egy pontja van.
Ezt a problémát többféleképpen is elkerülheti:
Módosítsa a centroidok számát, és próbálkozzon több magértékel.
Több modell létrehozása, a metrika módosítása vagy további iterálás.
A fürtözési modellek esetében általában lehetséges, hogy egy adott konfiguráció helyileg optimalizált fürtkészletet eredményez. Más szóval a modell által visszaadott fürtök csak az aktuális adatpontokhoz illeszkednek, és nem általánosíthatók más adatokhoz. Ha másik kezdeti konfigurációt használ, a K-közép metódus eltérő, kiváló konfigurációt találhat.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket .
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: