Megosztás a következőn keresztül:


Adatok csoportosítása tárolókba összetevő

Ez a cikk azt ismerteti, hogyan használhatja a Csoportadatok tárolókba összetevőt az Azure Machine Learning Designerben a számok csoportosításához vagy a folyamatos adatok eloszlásának módosításához.

A Group Data into Bins (Adatok csoportosítása a tárolókba) összetevő több lehetőséget is támogat az adatok dobozolására. Testre szabhatja a raktárhely széleinek beállítását, valamint azt, hogy az értékek hogyan oszlanak el a tárolókban. Például a következőt teheti:

  • Manuálisan írjon be egy értéksorozatot, amely a raktárhely határaiként szolgál.
  • Értékeket rendelhet a tárolókhoz kvantilisek vagy percentilis rangsorok használatával.
  • Az értékek egyenletes eloszlásának kényszerítése a tárolókban.

További információ a binningről és a csoportosításról

Az adatok binning vagy csoportosítása (más néven kvantálás) fontos eszköz a numerikus adatok gépi tanulásra való előkészítésében. Ez a következő forgatókönyvekben hasznos:

  • A folyamatos számok oszlopa túl sok egyedi értékkel rendelkezik a hatékony modellezéshez. Így automatikusan vagy manuálisan rendelheti hozzá az értékeket csoportokhoz, hogy kisebb különálló tartományokat hozzon létre.

  • Egy számoszlopot olyan kategorikus értékekkel szeretne lecserélni, amelyek adott tartományokat jelölnek.

    Előfordulhat például, hogy egyéni tartományok (például 1–15, 16–22, 23–30 stb.) megadásával szeretne értékeket csoportosítani egy koroszlopban.

  • Az adathalmazok néhány szélsőséges értékkel rendelkeznek, amelyek mindegyike a várt tartományon kívül esik, és ezek az értékek kiugró hatással vannak a betanított modellre. A modell torzításainak mérséklése érdekében a kvantilis módszer használatával az adatokat egységes eloszlássá alakíthatja át.

    Ezzel a módszerrel a Group Data into Bins összetevő határozza meg az ideális raktárhelyeket és rekeszszélességeket, így biztosítva, hogy körülbelül ugyanannyi minta kerüljön az egyes dobozokba. Ezután a kiválasztott normalizálási módszertől függően a raktárhelyek értékei percentilissé alakulnak, vagy egy raktárhelyszámra vannak leképezve.

Példák a binningre

Az alábbi ábrán a numerikus értékek eloszlása látható a kvantilis metódussal történő binning előtt és után. Figyelje meg, hogy a bal oldali nyers adatokhoz képest az adatok rögzítettek és egységszintű skálává lettek átalakítva.

Eredményvizualizáció

Mivel az adatok csoportosításának számos módja van, amelyek mindegyike testreszabható, javasoljuk, hogy kísérletezzen különböző módszerekkel és értékekkel.

Csoportadatok konfigurálása tárolókba

  1. Adja hozzá a Group Data Into Bins összetevőt a folyamathoz a tervezőben. Ezt az összetevőt az Adatátalakítás kategóriában találja.

  2. Csatlakoztassa a numerikus adatokat tartalmazó adatkészletet a tárolóhoz. A kvantálás csak numerikus adatokat tartalmazó oszlopokra alkalmazható.

    Ha az adathalmaz nem numerikus oszlopokat tartalmaz, az Adathalmaz oszlopainak kijelölése összetevővel jelölje ki a használni kívánt oszlopok egy részhalmazát.

  3. Adja meg a binning módot. A binning mód határozza meg a többi paramétert, ezért először válassza a Binning mode (Tárolási mód ) lehetőséget. A következő típusú tárolók támogatottak:

    • Kvantilisek: A kvantilis metódus percentilis rangok alapján rendel értékeket a tárolókhoz. Ezt a módszert egyenlő magasságú tárolónak is nevezik.

    • Egyenlő szélesség: Ezzel a beállítással meg kell adnia a tárolók teljes számát. Az adatoszlop értékei úgy vannak elhelyezve a tárolókban, hogy minden raktárhely azonos intervallummal rendelkezik a kezdő és a záró érték között. Ennek eredményeképpen egyes tárolók több értéket tartalmazhatnak, ha az adatok egy adott pont körül vannak összecsukva.

    • Egyéni élek: Megadhatja az egyes dobozokat kezdő értékeket. A peremérték mindig a tároló alsó határa.

      Tegyük fel például, hogy az értékeket két tárolóba szeretné csoportosítani. Az egyiknek 0-nál nagyobb értékei lesznek, az egyiknek pedig 0-nál kisebb vagy egyenlő értékei lesznek. Ebben az esetben a raktárhely széleinél a 0 értéket kell beírnia a vesszővel elválasztott intervallumok listájába. Az összetevő kimenete 1 és 2 lesz, ami az egyes sorértékek bin indexét jelzi. Vegye figyelembe, hogy a vesszővel elválasztott értéklistának növekvő sorrendben kell lennie, például 1, 3, 5, 7.

    Megjegyzés

    Az entrópia MDL mód a Studióban (klasszikus) van definiálva, és nincs megfelelő nyílt forráskód csomag, amelyet a Tervezőben még támogathat.

  4. Ha kvantilis és egyenlő szélességű binning módokat használ, a Raktárhelyek száma beállítással adja meg, hogy hány raktárhelyet vagy kvantilist szeretne létrehozni.

  5. Az Oszlopok gyűjtőben az oszlopválasztóval válassza ki azokat az oszlopokat, amelyekben a tárolóként használni kívánt értékek szerepelnek. Az oszlopoknak numerikus adattípusnak kell lenniük.

    Ugyanezt a binning szabályt alkalmazza a rendszer az összes kiválasztott oszlopra. Ha egyes oszlopokat egy másik módszerrel kell eltárolnia, használja az Adatok csoportosítása a tárolókba összetevő egy külön példányát minden oszlopkészlethez.

    Figyelmeztetés

    Ha olyan oszlopot választ, amely nem engedélyezett típus, futásidejű hiba jön létre. Az összetevő hibát ad vissza, amint megtalálja a nem engedélyezett típusú oszlopokat. Ha hibaüzenetet kap, tekintse át az összes kijelölt oszlopot. A hiba nem sorolja fel az összes érvénytelen oszlopot.

  6. Kimenet mód esetén adja meg, hogy hogyan szeretné megjeleníteni a kvantált értékeket:

    • Hozzáfűzés: Létrehoz egy új oszlopot a rögzített értékekkel, és hozzáfűzi azt a bemeneti táblához.

    • Hely: Az eredeti értékeket az adathalmaz új értékeire cseréli.

    • ResultOnly: Csak az eredményoszlopokat adja vissza.

  7. Ha a Quantiles binning módot választja, a Kvantilis normalizálás beállítással állapítsa meg, hogyan normalizálja az értékeket, mielőtt kvantilisekké rendezené őket. Vegye figyelembe, hogy az értékek normalizálása átalakítja az értékeket, de nem befolyásolja a tárolók végső számát.

    A következő normalizálási típusok támogatottak:

    • Százalék: Az értékek normalizálása a(z) [0100] tartományon belülre esik.

    • PQuantile: Az értékek a [0,1] tartományon belül normalizálódnak.

    • QuantileIndex: Az értékek normalizálva vannak a(z) [1, bins] tartományon belül.

  8. Ha az Egyéni élek lehetőséget választja, írja be a vesszővel tagolt számlistát, amelyet a bin edges szövegmező vesszővel elválasztott listájában szeretne használni.

    Az értékek a tárolókat elválasztó pontot jelölik. Ha például egy bin edge értéket ad meg, a rendszer két tárolót hoz létre. Ha két bin edge értéket ad meg, a rendszer három tárolót hoz létre.

    Az értékeket a tárolók létrehozásának sorrendjében kell rendezni, a legalacsonyabbtól a legmagasabbig.

  9. Jelölje ki a Címkeoszlopok kategorikus beállítással azt, hogy a kvantált oszlopokat kategorikus változóként kell kezelni.

  10. Küldje el a folyamatot.

Results (Eredmények)

A Group Data into Bins összetevő egy adatkészletet ad vissza, amelyben az egyes elemek a megadott módnak megfelelően vannak rögzítve.

Emellett binning transzformációt is visszaad. Ezt a függvényt át lehet adni az Átalakítás alkalmazása összetevőnek új adatmintákat tartalmazó tárolóra ugyanazzal a tárolási móddal és paraméterekkel.

Tipp

Ha a betanítási adatokon binninget használ, ugyanazt a binning metódust kell használnia a teszteléshez és előrejelzéshez használt adatokon. Ugyanazt a raktárhelyet és a tároló szélességét is használnia kell.

Annak érdekében, hogy az adatok mindig ugyanazzal a binning módszerrel legyenek átalakítva, javasoljuk, hogy mentse a hasznos adatátalakításokat. Ezután alkalmazza őket más adathalmazokra az Átalakítás alkalmazása összetevővel.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .