Többosztályos döntési erdő

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Többosztályos besorolási modellt hoz létre a döntési erdő algoritmusával

Kategória: Machine Learning / Modell inicializálása / Besorolás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a többosztályos döntési erdő modul a Machine Learning Studio (klasszikus) moduljával a döntési erdő algoritmusán alapuló gépi tanulási modell létrehozásához. A döntési erdő egy olyan együttes modell, amely nagyon gyorsan hoz létre döntési fák sorozatát, miközben tanul a címkézett adatokból.

További információ a döntési erdőkről

A döntési erdő algoritmusa egy együttes tanulási módszer a besoroláshoz. Az algoritmus úgy működik, hogy több döntési fát hoz létre, majd a legnépszerűbb kimeneti osztályra szavaz. A szavazás az összesítés egyik formája, amelyben a besorolási döntési erdő minden fája nem normalizált gyakoriságú címkék hisztogramját ad vissza. Az aggregáció folyamata összegzi ezeket a hisztogramokat, és normalizálja az eredményt, hogy az egyes címkék "valószínűségét" kapják. A magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.

A döntési fák általában nem parametrikus modellek, tehát különböző eloszlású adatokat támogatnak. Minden fában egyszerű tesztek sorozata fut le minden osztályhoz, és a fastruktúra szintjét addig növeli, amíg el nem ér egy levélcsomópontot (döntés).

A döntési fáknak számos előnye van:

Ezek nem lineáris döntési határokat jelenthetnek.
Hatékonyak a számításban és a memóriahasználatban a betanítás és az előrejelzés során.
Integrált szolgáltatásválasztást és -besorolást végeznek.
Zajos jellemzők esetén rugalmasak.

A (klasszikus) Machine Learning Studio döntésierdő-osztályozója döntési fák együttesét tartalmazza. Az együttes modellek általában jobb lefedettséget és pontosságot biztosítanak, mint az egyes döntési fák. További információ: Döntési fák.

Többosztályos döntési erdő konfigurálása

Tipp

Ha nem biztos a legjobb paraméterekben, javasoljuk, hogy használja a Modell hiperparaméterek hangolása modult több modell betanítására és tesztelésére, valamint az optimális paraméterek megkeresására.

Adja hozzá a Többosztályos döntési erdő modult a kísérlethez a Studióban (klasszikus). Ezt a modult a Modell inicializálása és Machine Learning szakaszban találja.
Kattintson duplán a modulra a Tulajdonságok panel megnyitásához .
Az Újrabélyegző metódushoz válassza ki az egyes fák létrehozásához használt metódust. A címkézés és a replikáció közül választhat.
- Címkézés: A címkézést bootstrap-összesítésnek is nevezik. Ebben a módszerben minden fa egy új mintán lesz megnőve, amelyet úgy hozunk létre, hogy véletlenszerűen mintavételt hozunk létre az eredeti adatkészletből a cserével, amíg meg nem áll az eredeti adatkészlet mérete. A modellek kimenetei a szavazással vannak kombinálva, amely az összesítés egyik formája. További információért tekintse meg a Bootstrap-aggregációról a Wikipédia-bejegyzést.
- Replikálás: A replikáció során minden fa pontosan ugyanazokkal a bemeneti adatokkal van betanítva. Az egyes facsomóponthoz használt felosztásos predikátum meghatározása véletlenszerű marad, ami változatos fákat hoz létre.
Útmutatásért tekintse meg a Többosztályos döntési erdő modelljének konfigurálása című szakaszt.
Az Oktatói mód létrehozása lehetőség beállításával adja meg, hogyan szeretné betanítni a modellt.
- Egyetlen paraméter: Válassza ezt a lehetőséget, ha tudja, hogyan szeretné konfigurálni a modellt, és argumentumként adjon meg egy értékkészletet.
- Paramétertartomány: Akkor használja ezt a lehetőséget, ha nem biztos a legjobb paraméterekben, és paraméteres lekérdezést szeretne használni.
Döntési fák száma: Adja meg az együttesen létrehozható döntési fák maximális számát. Több döntési fa létrehozásával jobb lefedettséget kaphat, de a betanítás ideje növekedhet.

Ez az érték a betanított modell vizualizációjakor az eredményekben megjelenített fák számát is szabályozza. Ha egyetlen fát lát vagy nyomtat ki, állítsa az értéket 1-re; Ez azonban azt jelenti, hogy csak egy fa (a kezdeti paraméterkészletet megszakoró fa) készülhet el, és nem lesz további iteráció.
Döntési fák maximális mélysége: Írjon be egy számot a döntési fák maximális mélységének korlátozásához. A fa mélységének növelése növelheti a pontosságot, ami túlilledés és megnövekedett betanítás kockázatával jár.
Véletlenszerű felosztások száma csomópontonként: Adja meg a fa egyes csomópontok kiépítésekor használt felosztások számát. A felosztás azt jelenti, hogy a fa (csomópont) egyes szintjei véletlenszerűen vannak elosztva.
Minták minimális száma levélcsomópontonként: Adja meg, hogy egy fában legalább hány eset szükséges a terminálcsomópont (levél) létrehozásához. Ennek az értéknek a növelésével megnöveli az új szabályok létrehozásának küszöbértékét.

Például az alapértelmezett 1 értékkel akár egyetlen eset is létrehozhat egy új szabályt. Ha 5-re növeli az értéket, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie.
Ismeretlen értékek engedélyezése kategorikus funkciókhoz: Ezzel a beállítással csoportot hozhat létre a betanítás vagy az ellenőrzési készlet ismeretlen értékeihez. Előfordulhat, hogy a modell kevésbé pontos az ismert értékek esetében, de jobb előrejelzéseket biztosít az új (ismeretlen) értékekhez.

Ha nem választja ki ezt a beállítást, a modell csak a betanítás adataiban jelenlező értékeket tudja elfogadni.
Csatlakozás címkével jelölt datset és az egyik képzési modult:
- Ha a Create trainer mode (Oktató létrehozása) módot Single Parameter (Egyparaméteres) beállításra beállította, használja a Train Model (Modell betanítása) modult .
- Ha az Oktatói mód létrehozása paramétertartomány beállítást választja, használja a Modell hiperparaméterek hangolása modult. Ezzel a lehetőséggel az oktató a beállítások több kombinációján is iterálhat, és meghatározhatja a legjobb modellt előállításához szükséges paraméterértékeket.
Megjegyzés

Ha paramétertartományt ad át a Modell betanítása számára, az csak az első értéket használja a paramétertartományok listájában.

Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása modulnak, és az egyes paraméterekhez egy beállítástartományt vár, az figyelmen kívül hagyja az értékeket, és az alapértelmezett értékeket használja a tanulóhoz.

Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer ezt az egyetlen értéket használja a teljes körben, még akkor is, ha más paraméterek változnak egy értéktartományban.
Futtassa a kísérletet.

Results (Eredmények)

A betanítás befejezése után:

Az egyes iterációkban létrehozott fa megjelenítéséhez kattintson a jobb gombbal a Modell betanítási modulja elemre, és válassza a Betanított modell lehetőséget a vizualizációhoz. Ha a Modell hiperparaméterek hangolása lehetőséget használja, kattintson a jobb gombbal a modulra, és válassza a Betanított legjobb modell lehetőséget a legjobb modell megjelenítéséhez. Az egyes csomópontok szabályait úgy láthatja, hogy az egyes fákra kattintva részletezi a felosztásokat.

Példák

A döntési erdők gépi tanulásban való használatára vonatkozó példákért lásd a Azure AI Gallery:

Többosztályos osztályozók mintája: Több algoritmust használ, és ismerteti azok előnyeit és hátrányait.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Megvalósítás részletei

A besorolási döntési erdő minden fája a címkék nem normalizált gyakorisági hisztogramját ad vissza. Az aggregáció ezeknek a hisztogramnak az összegzése és normalizálása, hogy az egyes címkék "valószínűségét" kapják. Így a magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.

A Replikálás lehetőséggel való betanítási folyamattal kapcsolatos további információkért lásd:

Döntési erdők számítógépes látáshoz és orvosi képelemzéshez. Criminisi és Shotton. Springer 2013.

Többosztályos döntési erdő modelljének konfigurálása

Módosíthatja a modul konfigurálásának módját az olyan forgatókönyveknek megfelelően, mint a túl kevés adat vagy a betanítás korlátozott ideje.

Korlátozott betanítás

Ha a betanítás készlet sok példányt tartalmaz, de a modell betanításhoz rendelkezésre álló ideje korlátozott, próbálja meg a következő lehetőségeket használni:

Hozzon létre egy döntési erdőt, amely kevesebb döntési fát használ (például 5–10).
Használja a Replikálás lehetőséget az újrabélyegezéshez.
Adjon meg kisebb számú véletlenszerű felosztást csomópontonként (például kevesebb mint 100).

Korlátozott betanítás

Ha a betanítás készlet korlátozott számú példányt tartalmaz, próbálja meg a következő lehetőségeket használni:

Hozzon létre egy döntési erdőt, amely nagy számú döntési fát használ (például több mint 20).
Használja a Címkézés lehetőséget az újrabélyegzéshez.
Adjon meg nagy számú véletlenszerű felosztást csomópontonként (például több mint 1000).

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Újrabélyegző metódus	Bármelyik	ResamplingMethod	Zsákoló	Újrabélyegző módszer kiválasztása: Címkézés vagyReplikálás
Döntési fák száma	>=1	Egész szám	8	Adja meg az együttesen létrehozni kívánt döntési fák számát
A döntési fák maximális mélysége	>=1	Egész szám	32	Bármely létrehozható döntési fa maximális mélységének megadása
Véletlenszerű felosztások száma csomópontonként	>=1	Egész szám	128	Adja meg a csomópontonként létrehozott felosztások számát, amelyekből az optimális felosztás van kiválasztva
Minták minimális száma levélcsomópontonként	>=1	Egész szám	1	A levélcsomópont létrehozásához szükséges betanító minták minimális számának megadása
Ismeretlen értékek engedélyezése kategorikus jellemzők számára	Bármelyik	Logikai	Igaz	Annak jelzése, hogy a meglévő kategorikus jellemzők ismeretlen értékei leképezése lehetséges-e egy új, további jellemzőre

Kimenetek

Név	Típus	Description
Nem korlátozott modell	ILearner interfész	Nem korlátozott többosztályos besorolási modell

Lásd még

Osztályozás
Kétosztályos döntési erdő
Döntési erdő típusú regresszió
A–Z modullista

Megosztás a következőn keresztül:

Többosztályos döntési erdő

A modul áttekintése

További információ a döntési erdőkről

Többosztályos döntési erdő konfigurálása

Results (Eredmények)

Példák

Technikai megjegyzések

Megvalósítás részletei

Többosztályos döntési erdő modelljének konfigurálása

Modulparaméterek

Kimenetek

Lásd még

További források

Megosztás a következőn keresztül:

Többosztályos döntési erdő

A modul áttekintése

További információ a döntési erdőkről

Többosztályos döntési erdő konfigurálása

Results (Eredmények)

Példák

Technikai megjegyzések

Megvalósítás részletei

Kapcsolódó kutatások

Többosztályos döntési erdő modelljének konfigurálása

Modulparaméterek

Kimenetek

Lásd még

További források