Megosztás a következőn keresztül:


Összetevő: K-Means fürtözés

Ez a cikk bemutatja, hogyan használható a K-Means fürtözési összetevő az Azure Machine Learning Designerben egy nem betanított K-közép fürtözési modell létrehozásához.

A K-közép az egyik legegyszerűbb és legismertebb nem felügyelt tanulási algoritmus. Az algoritmust számos gépi tanulási feladathoz használhatja, például:

  • Rendellenes adatok észlelése.
  • Szövegdokumentumok fürtözése.
  • Adathalmazok elemzése más besorolási vagy regressziós módszerek használata előtt.

Fürtözési modell létrehozásához a következőt kell használnia:

  • Adja hozzá ezt az összetevőt a folyamathoz.
  • Adatkészlet csatlakoztatása.
  • Adja meg a paramétereket, például a várt fürtök számát, a fürtök létrehozásához használni kívánt távolságmetrikát stb.

Miután konfigurálta az összetevő hiperparamétereit, csatlakoztatja a nem betanított modellt a fürtszolgáltatás-modell betanításához. Mivel a K-közép algoritmus nem felügyelt tanulási módszer, a címkeoszlop nem kötelező.

  • Ha az adatok tartalmaznak címkét, a címkeértékek segítségével kijelölheti a fürtöket, és optimalizálhatja a modellt.

  • Ha az adatok nem rendelkezik címkével, az algoritmus olyan fürtöket hoz létre, amelyek a lehetséges kategóriákat jelölik, kizárólag az adatok alapján.

A K-eszközök fürtözésének ismertetése

A fürtözés általában iteratív technikákkal csoportosítja az adathalmazokban lévő eseteket olyan fürtökké, amelyek hasonló jellemzőkkel rendelkeznek. Ezek a csoportosítások hasznosak az adatok feltárásához, az adatok rendellenességeinek azonosításához és végül az előrejelzések készítéséhez. A fürtözési modellek segítenek azonosítani az adathalmazok olyan kapcsolatait is, amelyeket nem biztos, hogy logikailag származtat a böngészéssel vagy egyszerű megfigyeléssel. Emiatt a fürtözést gyakran használják a gépi tanulási feladatok korai fázisaiban, az adatok feltárására és a váratlan korrelációk felderítésére.

Ha a K-közép metódussal konfigurál egy fürtözési modellt, meg kell adnia egy k célszámot, amely a modellben használni kívánt centroidok számát jelzi. A centroid az egyes fürtökre jellemző pont. A K-közép algoritmus minden bejövő adatpontot hozzárendel az egyik fürthöz a fürtön belüli négyzetek összegének minimalizálásával.

A betanítási adatok feldolgozásakor a K-közép algoritmus véletlenszerűen kiválasztott centroidok kezdeti készletével kezdődik. A centroidok kiindulópontként szolgálnak a fürtök számára, és Lloyd algoritmusát alkalmazzák a helyük iteratív finomítására. A K-közép algoritmus leállítja a fürtök összeállítását és finomítását, ha megfelel az alábbi feltételek valamelyikének:

  • A centroidok stabilizálódtak, ami azt jelenti, hogy az egyes pontok fürt-hozzárendelései már nem változnak, és az algoritmus konvergált egy megoldáson.

  • Az algoritmus befejezte a megadott számú iteráció futtatását.

A betanítási fázis befejezése után az Adatok hozzárendelése fürtökhöz összetevővel rendelhet új eseteket az egyik olyan fürthöz, amelyet a K-közép algoritmussal talált. A fürt hozzárendeléséhez számítsa ki az új eset és az egyes fürtök centroidja közötti távolságot. Minden új eset a fürthöz van rendelve a legközelebbi centroidtal.

A K-Means fürtözési összetevő konfigurálása

  1. Adja hozzá a K-Means fürtözési összetevőt a folyamathoz.

  2. A modell betanítási módjának megadásához válassza a Tréner mód létrehozása lehetőséget.

    • Egyetlen paraméter: Ha ismeri a fürtözési modellben használni kívánt pontos paramétereket, argumentumként megadhat egy adott értékkészletet.
  3. A Centroidok száma mezőbe írja be azoknak a fürtöknek a számát, amellyel kezdeni szeretné az algoritmust.

    A modell nem garantálja, hogy pontosan ennyi fürtöt állít elő. Az algoritmus ekkora adatpontszámmal kezdődik, és iterál az optimális konfiguráció megtalálásához. Tekintse meg a sklearn forráskódját.

  4. A tulajdonságok inicializálása a kezdeti fürtkonfiguráció meghatározásához használt algoritmus megadására szolgál.

    • Első N: Az adathalmazból néhány kezdeti adatpontot választunk ki, és kezdeti eszközként használjuk.

      Ezt a metódust Forgy metódusnak is nevezik.

    • Véletlenszerű: Az algoritmus véletlenszerűen helyez el egy adatpontot egy fürtben, majd kiszámítja a kezdeti középértéket, hogy a fürt véletlenszerűen hozzárendelt pontjainak centroidja legyen.

      Ezt a metódust véletlenszerű partíciós metódusnak is nevezik.

    • K-Means++: Ez a fürtök inicializálásának alapértelmezett módja.

      A K-means++ algoritmust David Arthur és Sergei Vassilvitskii javasolta 2007-ben, hogy elkerülje a gyenge fürtözést a standard K-közép algoritmussal. A K-means++ a standard K-eszközök esetében egy másik módszerrel javítja a kezdeti fürtközpontok kiválasztását.

  5. Véletlenszerű számmagok esetén adjon meg egy értéket, amelyet a fürt inicializálásának magjaként szeretne használni. Ez az érték jelentős hatással lehet a fürt kiválasztására.

  6. A Metrika beállításnál válassza ki a fürtvektorok vagy az új adatpontok és a véletlenszerűen kiválasztott centroid közötti távolság méréséhez használni kívánt függvényt. Az Azure Machine Learning a következő fürttávmetrikákat támogatja:

    • Euklideszi: Az euklideszi távolságot gyakran használják a fürt pontjának mérésére k-közép fürtözéshez. Ez a metrika azért ajánlott, mert minimálisra csökkenti a pontok és a centroidok közötti átlagos távolságot.
  7. Iterációk esetén írja be, hogy az algoritmus hányszor legyen iterálva a betanítási adatokon, mielőtt véglegesíti a centroidok kiválasztását.

    Ezt a paramétert úgy módosíthatja, hogy kiegyenlítse a pontosságot a betanítási idővel.

  8. A Címke hozzárendelése mód beállításnál válassza ki azt a beállítást, amely meghatározza, hogyan kell kezelni egy címkeoszlopot, ha az szerepel az adathalmazban.

    Mivel a K-közép fürtözés nem felügyelt gépi tanulási módszer, a címkék nem kötelezőek. Ha azonban az adathalmaz már rendelkezik címkeoszloppal, ezekkel az értékekkel irányíthatja a fürtök kiválasztását, vagy megadhatja, hogy az értékek figyelmen kívül legyenek hagyva.

    • Címkeoszlop figyelmen kívül hagyása: A címkeoszlop értékeit a rendszer figyelmen kívül hagyja, és nem használja a modell létrehozásához.

    • Hiányzó értékek kitöltése: A címkeoszlop értékei funkcióként szolgálnak a fürtök létrehozásához. Ha valamelyik sorból hiányzik egy címke, az érték más funkciókkal lesz imputált.

    • Felülírás a legközelebbitől a középig: A címkeoszlop értékeit előrejelzett címkeértékek váltják fel az aktuális centroidhoz legközelebbi pont címkéjével.

  9. Ha a betanítás előtt normalizálni szeretné a funkciókat, válassza a Szolgáltatások normalizálása lehetőséget.

    Ha normalizálást alkalmaz, a betanítás előtt az adatpontokat a MinMaxNormalizer normalizálja [0,1] .

  10. A modell betanítása.

    • Ha a Create trainer mode (Oktatói mód létrehozása) beállítástegyetlen paraméterre állítja, adjon hozzá egy címkézett adatkészletet, és a fürtözési modell betanítása összetevővel tanítsa be a modellt.

Results (Eredmények)

Miután végzett a modell konfigurálásával és betanításával, rendelkezik egy olyan modellel, amellyel pontszámokat hozhat létre. A modell betanítása azonban többféleképpen is lehetséges, és többféleképpen is megtekintheti és használhatja az eredményeket:

A modell pillanatképének rögzítése a munkaterületen

Ha a Fürtözési modell betanítása összetevőt használta:

  1. Válassza a Fürtmodell betanítása összetevőt, és nyissa meg a jobb oldali panelt.

  2. Válassza a Kimenetek lapot. A betanított modell másolatának mentéséhez válassza az Adathalmaz regisztrálása ikont.

A mentett modell a modell mentésekor megadott betanítási adatokat jelöli. Ha később frissíti a folyamatban használt betanítási adatokat, az nem frissíti a mentett modellt.

A fürtözés eredményadatkészletének megtekintése

Ha a Fürtözési modell betanítása összetevőt használta:

  1. Kattintson a jobb gombbal a Fürtmodell betanítása összetevőre.

  2. Válassza a Vizualizáció lehetőséget.

Tippek a legjobb fürtözési modell létrehozásához

Ismert, hogy a fürtözés során használt magvetési folyamat jelentősen befolyásolhatja a modellt. A vetés azt jelenti, hogy a pontok kezdeti elhelyezése lehetséges centroidokba.

Ha például az adathalmaz sok kiugró értéket tartalmaz, és egy kiugró érték van kiválasztva a fürtök bevetéséhez, akkor más adatpontok nem férnek el jól az adott fürthöz, és a fürt egyetlen adategység lehet. Vagyis lehet, hogy csak egy pontja van.

Ezt a problémát többféleképpen is elkerülheti:

  • Módosítsa a centroidok számát, és próbálkozzon több magértékel.

  • Több modell létrehozása, a metrika módosítása vagy további iterálás.

A fürtözési modellek esetében általában lehetséges, hogy egy adott konfiguráció helyileg optimalizált fürtkészletet eredményez. Más szóval a modell által visszaadott fürtök csak az aktuális adatpontokhoz illeszkednek, és nem általánosíthatók más adatokhoz. Ha másik kezdeti konfigurációt használ, a K-közép metódus eltérő, kiváló konfigurációt találhat.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .