Többosztályos döntési erdő
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Többosztályos besorolási modellt hoz létre a döntési erdő algoritmusával
Kategória: Machine Learning / Modell inicializálása / Besorolás
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a többosztályos döntési erdő modul a Machine Learning Studio (klasszikus) moduljával a döntési erdő algoritmusán alapuló gépi tanulási modell létrehozásához. A döntési erdő egy olyan együttes modell, amely nagyon gyorsan hoz létre döntési fák sorozatát, miközben tanul a címkézett adatokból.
További információ a döntési erdőkről
A döntési erdő algoritmusa egy együttes tanulási módszer a besoroláshoz. Az algoritmus úgy működik, hogy több döntési fát hoz létre, majd a legnépszerűbb kimeneti osztályra szavaz. A szavazás az összesítés egyik formája, amelyben a besorolási döntési erdő minden fája nem normalizált gyakoriságú címkék hisztogramját ad vissza. Az aggregáció folyamata összegzi ezeket a hisztogramokat, és normalizálja az eredményt, hogy az egyes címkék "valószínűségét" kapják. A magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.
A döntési fák általában nem parametrikus modellek, tehát különböző eloszlású adatokat támogatnak. Minden fában egyszerű tesztek sorozata fut le minden osztályhoz, és a fastruktúra szintjét addig növeli, amíg el nem ér egy levélcsomópontot (döntés).
A döntési fáknak számos előnye van:
- Ezek nem lineáris döntési határokat jelenthetnek.
- Hatékonyak a számításban és a memóriahasználatban a betanítás és az előrejelzés során.
- Integrált szolgáltatásválasztást és -besorolást végeznek.
- Zajos jellemzők esetén rugalmasak.
A (klasszikus) Machine Learning Studio döntésierdő-osztályozója döntési fák együttesét tartalmazza. Az együttes modellek általában jobb lefedettséget és pontosságot biztosítanak, mint az egyes döntési fák. További információ: Döntési fák.
Többosztályos döntési erdő konfigurálása
Tipp
Ha nem biztos a legjobb paraméterekben, javasoljuk, hogy használja a Modell hiperparaméterek hangolása modult több modell betanítására és tesztelésére, valamint az optimális paraméterek megkeresására.
Adja hozzá a Többosztályos döntési erdő modult a kísérlethez a Studióban (klasszikus). Ezt a modult a Modell inicializálása és Machine Learning szakaszban találja.
Kattintson duplán a modulra a Tulajdonságok panel megnyitásához .
Az Újrabélyegző metódushoz válassza ki az egyes fák létrehozásához használt metódust. A címkézés és a replikáció közül választhat.
Címkézés: A címkézést bootstrap-összesítésnek is nevezik. Ebben a módszerben minden fa egy új mintán lesz megnőve, amelyet úgy hozunk létre, hogy véletlenszerűen mintavételt hozunk létre az eredeti adatkészletből a cserével, amíg meg nem áll az eredeti adatkészlet mérete. A modellek kimenetei a szavazással vannak kombinálva, amely az összesítés egyik formája. További információért tekintse meg a Bootstrap-aggregációról a Wikipédia-bejegyzést.
Replikálás: A replikáció során minden fa pontosan ugyanazokkal a bemeneti adatokkal van betanítva. Az egyes facsomóponthoz használt felosztásos predikátum meghatározása véletlenszerű marad, ami változatos fákat hoz létre.
Útmutatásért tekintse meg a Többosztályos döntési erdő modelljének konfigurálása című szakaszt.
Az Oktatói mód létrehozása lehetőség beállításával adja meg, hogyan szeretné betanítni a modellt.
Egyetlen paraméter: Válassza ezt a lehetőséget, ha tudja, hogyan szeretné konfigurálni a modellt, és argumentumként adjon meg egy értékkészletet.
Paramétertartomány: Akkor használja ezt a lehetőséget, ha nem biztos a legjobb paraméterekben, és paraméteres lekérdezést szeretne használni.
Döntési fák száma: Adja meg az együttesen létrehozható döntési fák maximális számát. Több döntési fa létrehozásával jobb lefedettséget kaphat, de a betanítás ideje növekedhet.
Ez az érték a betanított modell vizualizációjakor az eredményekben megjelenített fák számát is szabályozza. Ha egyetlen fát lát vagy nyomtat ki, állítsa az értéket 1-re; Ez azonban azt jelenti, hogy csak egy fa (a kezdeti paraméterkészletet megszakoró fa) készülhet el, és nem lesz további iteráció.
Döntési fák maximális mélysége: Írjon be egy számot a döntési fák maximális mélységének korlátozásához. A fa mélységének növelése növelheti a pontosságot, ami túlilledés és megnövekedett betanítás kockázatával jár.
Véletlenszerű felosztások száma csomópontonként: Adja meg a fa egyes csomópontok kiépítésekor használt felosztások számát. A felosztás azt jelenti, hogy a fa (csomópont) egyes szintjei véletlenszerűen vannak elosztva.
Minták minimális száma levélcsomópontonként: Adja meg, hogy egy fában legalább hány eset szükséges a terminálcsomópont (levél) létrehozásához. Ennek az értéknek a növelésével megnöveli az új szabályok létrehozásának küszöbértékét.
Például az alapértelmezett 1 értékkel akár egyetlen eset is létrehozhat egy új szabályt. Ha 5-re növeli az értéket, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie.
Ismeretlen értékek engedélyezése kategorikus funkciókhoz: Ezzel a beállítással csoportot hozhat létre a betanítás vagy az ellenőrzési készlet ismeretlen értékeihez. Előfordulhat, hogy a modell kevésbé pontos az ismert értékek esetében, de jobb előrejelzéseket biztosít az új (ismeretlen) értékekhez.
Ha nem választja ki ezt a beállítást, a modell csak a betanítás adataiban jelenlező értékeket tudja elfogadni.
Csatlakozás címkével jelölt datset és az egyik képzési modult:
Ha a Create trainer mode (Oktató létrehozása) módot Single Parameter (Egyparaméteres) beállításra beállította, használja a Train Model (Modell betanítása) modult .
Ha az Oktatói mód létrehozása paramétertartomány beállítást választja, használja a Modell hiperparaméterek hangolása modult. Ezzel a lehetőséggel az oktató a beállítások több kombinációján is iterálhat, és meghatározhatja a legjobb modellt előállításához szükséges paraméterértékeket.
Megjegyzés
Ha paramétertartományt ad át a Modell betanítása számára, az csak az első értéket használja a paramétertartományok listájában.
Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása modulnak, és az egyes paraméterekhez egy beállítástartományt vár, az figyelmen kívül hagyja az értékeket, és az alapértelmezett értékeket használja a tanulóhoz.
Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer ezt az egyetlen értéket használja a teljes körben, még akkor is, ha más paraméterek változnak egy értéktartományban.
Futtassa a kísérletet.
Results (Eredmények)
A betanítás befejezése után:
- Az egyes iterációkban létrehozott fa megjelenítéséhez kattintson a jobb gombbal a Modell betanítási modulja elemre, és válassza a Betanított modell lehetőséget a vizualizációhoz. Ha a Modell hiperparaméterek hangolása lehetőséget használja, kattintson a jobb gombbal a modulra, és válassza a Betanított legjobb modell lehetőséget a legjobb modell megjelenítéséhez. Az egyes csomópontok szabályait úgy láthatja, hogy az egyes fákra kattintva részletezi a felosztásokat.
Példák
A döntési erdők gépi tanulásban való használatára vonatkozó példákért lásd a Azure AI Gallery:
- Többosztályos osztályozók mintája: Több algoritmust használ, és ismerteti azok előnyeit és hátrányait.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.
Megvalósítás részletei
A besorolási döntési erdő minden fája a címkék nem normalizált gyakorisági hisztogramját ad vissza. Az aggregáció ezeknek a hisztogramnak az összegzése és normalizálása, hogy az egyes címkék "valószínűségét" kapják. Így a magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.
Kapcsolódó kutatások
A Replikálás lehetőséggel való betanítási folyamattal kapcsolatos további információkért lásd:
Többosztályos döntési erdő modelljének konfigurálása
Módosíthatja a modul konfigurálásának módját az olyan forgatókönyveknek megfelelően, mint a túl kevés adat vagy a betanítás korlátozott ideje.
Korlátozott betanítás
Ha a betanítás készlet sok példányt tartalmaz, de a modell betanításhoz rendelkezésre álló ideje korlátozott, próbálja meg a következő lehetőségeket használni:
- Hozzon létre egy döntési erdőt, amely kevesebb döntési fát használ (például 5–10).
- Használja a Replikálás lehetőséget az újrabélyegezéshez.
- Adjon meg kisebb számú véletlenszerű felosztást csomópontonként (például kevesebb mint 100).
Korlátozott betanítás
Ha a betanítás készlet korlátozott számú példányt tartalmaz, próbálja meg a következő lehetőségeket használni:
- Hozzon létre egy döntési erdőt, amely nagy számú döntési fát használ (például több mint 20).
- Használja a Címkézés lehetőséget az újrabélyegzéshez.
- Adjon meg nagy számú véletlenszerű felosztást csomópontonként (például több mint 1000).
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Újrabélyegző metódus | Bármelyik | ResamplingMethod | Zsákoló | Újrabélyegző módszer kiválasztása: Címkézés vagyReplikálás |
Döntési fák száma | >=1 | Egész szám | 8 | Adja meg az együttesen létrehozni kívánt döntési fák számát |
A döntési fák maximális mélysége | >=1 | Egész szám | 32 | Bármely létrehozható döntési fa maximális mélységének megadása |
Véletlenszerű felosztások száma csomópontonként | >=1 | Egész szám | 128 | Adja meg a csomópontonként létrehozott felosztások számát, amelyekből az optimális felosztás van kiválasztva |
Minták minimális száma levélcsomópontonként | >=1 | Egész szám | 1 | A levélcsomópont létrehozásához szükséges betanító minták minimális számának megadása |
Ismeretlen értékek engedélyezése kategorikus jellemzők számára | Bármelyik | Logikai | Igaz | Annak jelzése, hogy a meglévő kategorikus jellemzők ismeretlen értékei leképezése lehetséges-e egy új, további jellemzőre |
Kimenetek
Név | Típus | Description |
---|---|---|
Nem korlátozott modell | ILearner interfész | Nem korlátozott többosztályos besorolási modell |
Lásd még
Osztályozás
Kétosztályos döntési erdő
Döntési erdő típusú regresszió
A–Z modullista