Megosztás a következőn keresztül:


Többosztályos döntési erdő

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Többosztályos besorolási modellt hoz létre a döntési erdő algoritmusával

Kategória: Machine Learning / Modell inicializálása / Besorolás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a többosztályos döntési erdő modul a Machine Learning Studio (klasszikus) moduljával a döntési erdő algoritmusán alapuló gépi tanulási modell létrehozásához. A döntési erdő egy olyan együttes modell, amely nagyon gyorsan hoz létre döntési fák sorozatát, miközben tanul a címkézett adatokból.

További információ a döntési erdőkről

A döntési erdő algoritmusa egy együttes tanulási módszer a besoroláshoz. Az algoritmus úgy működik, hogy több döntési fát hoz létre, majd a legnépszerűbb kimeneti osztályra szavaz. A szavazás az összesítés egyik formája, amelyben a besorolási döntési erdő minden fája nem normalizált gyakoriságú címkék hisztogramját ad vissza. Az aggregáció folyamata összegzi ezeket a hisztogramokat, és normalizálja az eredményt, hogy az egyes címkék "valószínűségét" kapják. A magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.

A döntési fák általában nem parametrikus modellek, tehát különböző eloszlású adatokat támogatnak. Minden fában egyszerű tesztek sorozata fut le minden osztályhoz, és a fastruktúra szintjét addig növeli, amíg el nem ér egy levélcsomópontot (döntés).

A döntési fáknak számos előnye van:

  • Ezek nem lineáris döntési határokat jelenthetnek.
  • Hatékonyak a számításban és a memóriahasználatban a betanítás és az előrejelzés során.
  • Integrált szolgáltatásválasztást és -besorolást végeznek.
  • Zajos jellemzők esetén rugalmasak.

A (klasszikus) Machine Learning Studio döntésierdő-osztályozója döntési fák együttesét tartalmazza. Az együttes modellek általában jobb lefedettséget és pontosságot biztosítanak, mint az egyes döntési fák. További információ: Döntési fák.

Többosztályos döntési erdő konfigurálása

Tipp

Ha nem biztos a legjobb paraméterekben, javasoljuk, hogy használja a Modell hiperparaméterek hangolása modult több modell betanítására és tesztelésére, valamint az optimális paraméterek megkeresására.

  1. Adja hozzá a Többosztályos döntési erdő modult a kísérlethez a Studióban (klasszikus). Ezt a modult a Modell inicializálása és Machine Learning szakaszban találja.

  2. Kattintson duplán a modulra a Tulajdonságok panel megnyitásához .

  3. Az Újrabélyegző metódushoz válassza ki az egyes fák létrehozásához használt metódust. A címkézés és a replikáció közül választhat.

    • Címkézés: A címkézést bootstrap-összesítésnek is nevezik. Ebben a módszerben minden fa egy új mintán lesz megnőve, amelyet úgy hozunk létre, hogy véletlenszerűen mintavételt hozunk létre az eredeti adatkészletből a cserével, amíg meg nem áll az eredeti adatkészlet mérete. A modellek kimenetei a szavazással vannak kombinálva, amely az összesítés egyik formája. További információért tekintse meg a Bootstrap-aggregációról a Wikipédia-bejegyzést.

    • Replikálás: A replikáció során minden fa pontosan ugyanazokkal a bemeneti adatokkal van betanítva. Az egyes facsomóponthoz használt felosztásos predikátum meghatározása véletlenszerű marad, ami változatos fákat hoz létre.

    Útmutatásért tekintse meg a Többosztályos döntési erdő modelljének konfigurálása című szakaszt.

  4. Az Oktatói mód létrehozása lehetőség beállításával adja meg, hogyan szeretné betanítni a modellt.

    • Egyetlen paraméter: Válassza ezt a lehetőséget, ha tudja, hogyan szeretné konfigurálni a modellt, és argumentumként adjon meg egy értékkészletet.

    • Paramétertartomány: Akkor használja ezt a lehetőséget, ha nem biztos a legjobb paraméterekben, és paraméteres lekérdezést szeretne használni.

  5. Döntési fák száma: Adja meg az együttesen létrehozható döntési fák maximális számát. Több döntési fa létrehozásával jobb lefedettséget kaphat, de a betanítás ideje növekedhet.

    Ez az érték a betanított modell vizualizációjakor az eredményekben megjelenített fák számát is szabályozza. Ha egyetlen fát lát vagy nyomtat ki, állítsa az értéket 1-re; Ez azonban azt jelenti, hogy csak egy fa (a kezdeti paraméterkészletet megszakoró fa) készülhet el, és nem lesz további iteráció.

  6. Döntési fák maximális mélysége: Írjon be egy számot a döntési fák maximális mélységének korlátozásához. A fa mélységének növelése növelheti a pontosságot, ami túlilledés és megnövekedett betanítás kockázatával jár.

  7. Véletlenszerű felosztások száma csomópontonként: Adja meg a fa egyes csomópontok kiépítésekor használt felosztások számát. A felosztás azt jelenti, hogy a fa (csomópont) egyes szintjei véletlenszerűen vannak elosztva.

  8. Minták minimális száma levélcsomópontonként: Adja meg, hogy egy fában legalább hány eset szükséges a terminálcsomópont (levél) létrehozásához. Ennek az értéknek a növelésével megnöveli az új szabályok létrehozásának küszöbértékét.

    Például az alapértelmezett 1 értékkel akár egyetlen eset is létrehozhat egy új szabályt. Ha 5-re növeli az értéket, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie.

  9. Ismeretlen értékek engedélyezése kategorikus funkciókhoz: Ezzel a beállítással csoportot hozhat létre a betanítás vagy az ellenőrzési készlet ismeretlen értékeihez. Előfordulhat, hogy a modell kevésbé pontos az ismert értékek esetében, de jobb előrejelzéseket biztosít az új (ismeretlen) értékekhez.

    Ha nem választja ki ezt a beállítást, a modell csak a betanítás adataiban jelenlező értékeket tudja elfogadni.

  10. Csatlakozás címkével jelölt datset és az egyik képzési modult:

    • Ha a Create trainer mode (Oktató létrehozása) módot Single Parameter (Egyparaméteres) beállításra beállította, használja a Train Model (Modell betanítása) modult .

    • Ha az Oktatói mód létrehozása paramétertartomány beállítást választja, használja a Modell hiperparaméterek hangolása modult. Ezzel a lehetőséggel az oktató a beállítások több kombinációján is iterálhat, és meghatározhatja a legjobb modellt előállításához szükséges paraméterértékeket.

    Megjegyzés

    Ha paramétertartományt ad át a Modell betanítása számára, az csak az első értéket használja a paramétertartományok listájában.

    Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása modulnak, és az egyes paraméterekhez egy beállítástartományt vár, az figyelmen kívül hagyja az értékeket, és az alapértelmezett értékeket használja a tanulóhoz.

    Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer ezt az egyetlen értéket használja a teljes körben, még akkor is, ha más paraméterek változnak egy értéktartományban.

  11. Futtassa a kísérletet.

Results (Eredmények)

A betanítás befejezése után:

  • Az egyes iterációkban létrehozott fa megjelenítéséhez kattintson a jobb gombbal a Modell betanítási modulja elemre, és válassza a Betanított modell lehetőséget a vizualizációhoz. Ha a Modell hiperparaméterek hangolása lehetőséget használja, kattintson a jobb gombbal a modulra, és válassza a Betanított legjobb modell lehetőséget a legjobb modell megjelenítéséhez. Az egyes csomópontok szabályait úgy láthatja, hogy az egyes fákra kattintva részletezi a felosztásokat.

Példák

A döntési erdők gépi tanulásban való használatára vonatkozó példákért lásd a Azure AI Gallery:

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Megvalósítás részletei

A besorolási döntési erdő minden fája a címkék nem normalizált gyakorisági hisztogramját ad vissza. Az aggregáció ezeknek a hisztogramnak az összegzése és normalizálása, hogy az egyes címkék "valószínűségét" kapják. Így a magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.

A Replikálás lehetőséggel való betanítási folyamattal kapcsolatos további információkért lásd:

Többosztályos döntési erdő modelljének konfigurálása

Módosíthatja a modul konfigurálásának módját az olyan forgatókönyveknek megfelelően, mint a túl kevés adat vagy a betanítás korlátozott ideje.

Korlátozott betanítás

Ha a betanítás készlet sok példányt tartalmaz, de a modell betanításhoz rendelkezésre álló ideje korlátozott, próbálja meg a következő lehetőségeket használni:

  • Hozzon létre egy döntési erdőt, amely kevesebb döntési fát használ (például 5–10).
  • Használja a Replikálás lehetőséget az újrabélyegezéshez.
  • Adjon meg kisebb számú véletlenszerű felosztást csomópontonként (például kevesebb mint 100).

Korlátozott betanítás

Ha a betanítás készlet korlátozott számú példányt tartalmaz, próbálja meg a következő lehetőségeket használni:

  • Hozzon létre egy döntési erdőt, amely nagy számú döntési fát használ (például több mint 20).
  • Használja a Címkézés lehetőséget az újrabélyegzéshez.
  • Adjon meg nagy számú véletlenszerű felosztást csomópontonként (például több mint 1000).

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Újrabélyegző metódus Bármelyik ResamplingMethod Zsákoló Újrabélyegző módszer kiválasztása: Címkézés vagyReplikálás
Döntési fák száma >=1 Egész szám 8 Adja meg az együttesen létrehozni kívánt döntési fák számát
A döntési fák maximális mélysége >=1 Egész szám 32 Bármely létrehozható döntési fa maximális mélységének megadása
Véletlenszerű felosztások száma csomópontonként >=1 Egész szám 128 Adja meg a csomópontonként létrehozott felosztások számát, amelyekből az optimális felosztás van kiválasztva
Minták minimális száma levélcsomópontonként >=1 Egész szám 1 A levélcsomópont létrehozásához szükséges betanító minták minimális számának megadása
Ismeretlen értékek engedélyezése kategorikus jellemzők számára Bármelyik Logikai Igaz Annak jelzése, hogy a meglévő kategorikus jellemzők ismeretlen értékei leképezése lehetséges-e egy új, további jellemzőre

Kimenetek

Név Típus Description
Nem korlátozott modell ILearner interfész Nem korlátozott többosztályos besorolási modell

Lásd még

Osztályozás
Kétosztályos döntési erdő
Döntési erdő típusú regresszió
A–Z modullista