Kétosztályos súlyozott döntési fa

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Bináris osztályozót hoz létre egy megnövelt döntésifa-algoritmussal

Kategória: Machine Learning / Modell inicializálása / Besorolás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) kétosztályos döntési fa modulja egy gépi tanulási modell létrehozásához, amely a megnövelt döntési fák algoritmusán alapul.

A megnövelt döntési fa egy együttes tanulási módszer, amelyben a második fa kijavítja az első fa hibáit, a harmadik fa kijavítja az első és a második fa hibáit, és így tovább. Az előrejelzések a fák teljes együttesén alapulnak, amely az előrejelzést teszi lehetővé. További technikai részleteket a cikk Research (Kutatás ) című szakaszában talál.

A megfelelően konfigurált, megnövelt döntési fák a legegyszerűbb módszerek, amelyek segítségével a gépi tanulási feladatok széles választéka esetén a legjobb teljesítményt lehet kihozni. Ugyanakkor a memóriaigényesebb tanulók egyike is, és a jelenlegi implementáció mindent a memóriában tart. Ezért előfordulhat, hogy egy megnövelt döntésifa-modell nem tudja feldolgozni a lineáris tanulók által kezelhető nagyon nagy adatkészleteket.

A Two-Class döntési fa konfigurálása

Ez a modul egy nem korlátozott besorolási modellt hoz létre. Mivel a besorolás felügyelt tanulási módszer , a modell betanítása érdekében olyan címkézett adathalmazra van szükség, amely egy címkeoszlopot tartalmaz, és minden sorhoz értéket tartalmaz.

Ez a modelltípus a Modell betanítás vagy a Modell hangolása hiperparaméterek moduljaival betanítható.

A Machine Learning Studióban (klasszikus) adja hozzá a Boosted Decision Tree (Döntési fa növelése) modult a kísérlethez.
Az Oktatói mód létrehozása beállítással adhatja meg, hogyan szeretné betanítni a modellt.
- Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a modellt, argumentumként egy adott értékkészletet is meg lehet adni.
- Paramétertartomány: Ha nem biztos a legjobb paraméterekben, a Modell hiperparaméterek hangolása modullal megkeresheti az optimális paramétereket. Meg kell adnia néhány értéktartományt, és az edző a beállítások több kombinációján iterál, hogy meghatározza a legjobb eredményt eredményező értékek kombinációját.
A Levelek maximális száma fánként mezőben adja meg a bármely fában létrehozható terminálcsomópontok (levelek) maximális számát.

Ennek az értéknek a növelésével növelheti a fa méretét, és nagyobb pontosságot kap a túlilledés és a hosszabb betanítás kockázata mellett.
A Minták minimális száma levélcsomópontonként mezőben adja meg, hogy hány esetben kell létrehozni egy fa terminálcsomópontot (levélcsomópontot).

Az érték növelésével megnöveli az új szabályok létrehozásának küszöbértékét. Ha például az alapértelmezett érték 1, akkor akár egyetlen eset is létrehozhat egy új szabályt. Ha 5-re növeli az értéket, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie.
A Tanulás a 0 és 1 közötti számot, amely meghatározza a lépés méretét a tanulás közben.

A tanulási sebesség határozza meg, hogy a tanuló milyen gyorsan vagy lassan konvergál az optimális megoldásra. Ha a lépés mérete túl nagy, előfordulhat, hogy túl magas az optimális megoldás. Ha a lépés mérete túl kicsi, a betanítás hosszabb időt vesz igénybe, hogy a legjobb megoldásra konvergáljon.
A Létrehozott fák száma mezőben adja meg az együttesen létrehozatott döntési fák teljes számát. További döntési fák létrehozásával jobb lefedettséget kaphat, de a betanítás ideje nőni fog.

Ez az érték a betanított modell vizualizációjakor megjelenő fák számát is szabályozza. Ha egyetlen fát szeretne látni vagy kinyomtatni, állítsa az értéket 1-re. Ha azonban ezt a műveletet végzi, csak egy fa lesz előállítva (a kezdeti paraméterkészletet megszabadó fa), és a rendszer nem végez további iterációkat.
Véletlenszerű szám kezdőértékeként nem kötelezően begépelhető egy nem negatív egész szám, amely véletlenszerű kezdőértékként lesz használva. A magok megadása biztosítja a reprodukálhatóságot az azonos adatokkal és paraméterekkel futó futtatásokkal.

A véletlenszerű kezdőérték alapértelmezés szerint 0-ra van állítva, ami azt jelenti, hogy a kezdeti kezdőérték a rendszerórából van lekért érték. A véletlenszerű magot használó egymást követő futtatás eredménye eltérő lehet.
Válassza az Ismeretlen kategorikus szintek engedélyezése lehetőséget, hogy létrehoz egy csoportot a betanítás és az ellenőrzési készlet ismeretlen értékeihez.

Ha nem választja ki ezt a beállítást, a modell csak a betanítás adataiban szereplő értékeket tudja elfogadni.

Ha engedélyezi az ismeretlen értékeket, a modell kevésbé lesz pontos az ismert értékek esetében, de valószínűleg jobb előrejelzéseket tud adni az új (ismeretlen) értékekről.
Betanítja a modellt.
- Ha az Oktató létrehozása módot Egyparaméteresre beállította, csatlakoztassa a címkézett adathalmazt és a Modell betanítása modult.
- Ha az Oktató létrehozása módot Paramétertartományra állítsa, csatlakoztassa a címkézett adathalmazt, és betanítsa a modellt a Modell hiperparaméterek hangolása használatával.
Megjegyzés

Ha paramétertartományt ad át a Modell betanítása számára, az csak az első értéket használja a paramétertartományok listájában.

Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása modulnak, és az egyes paraméterekhez egy beállítástartományt vár, az figyelmen kívül hagyja az értékeket, és a tanuló alapértelmezett értékeit használja.

Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer az Ön által megadott egyetlen értéket használja a teljes tartományban, még akkor is, ha más paraméterek változnak egy értéktartományban.

Results (Eredmények)

A betanítás befejezése után:

Az egyes iterációkban létrehozott fa megjelenítéséhez kattintson a jobb gombbal a Modell betanítási modulja elemre, és válassza a Betanított modell lehetőséget a vizualizációhoz. Ha a Modell hiperparaméterek hangolása lehetőséget használja, kattintson a jobb gombbal a modulra, és válassza a Betanított legjobb modell lehetőséget a legjobb modell megjelenítéséhez.

Kattintson az egyes fákra a felosztások részletezésében, és tekintse meg az egyes csomópontok szabályait.
Ahhoz, hogy a modellt pontozáshoz használjuk, csatlakoztassa a Score Model (Modell pontozása) pontozáshoz, hogy előrejelezni tudja az új bemeneti példák értékeit.

Példák

Példák a döntési fák gépi tanulásban való használatára: Azure AI Gallery:

Közvetlen marketing: A kétosztályos, megnövelt döntési fa algoritmussal előrejelezni tudja az ügyfelek elégedettségét.
Repülőjárat késésének előrejelzése: Ez a minta a Kétosztályos döntési fa algoritmussal határozza meg, hogy egy járat várhatóan késni fog-e .
Hitelkártyakockázat: Ez a minta a kétosztályos döntési fa algoritmust használja a kockázat előrejelzésére.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit és a gyakori kérdéseket tartalmazza.

Használati tippek

A megnövelt döntésifa-modell betanítása érdekében több adatpéldányt kell biztosítani. Ha az adathalmaz túl kevés sort tartalmaz, a betanítási folyamat során hiba történik.
Ha az adatokból hiányoznak értékek, meg kell adni a funkciók jelzőit.
Általánosságban elmondható, hogy a megnövelt döntési fák jobb eredményeket eredményeznek, ha a jellemzők valamelyest kapcsolódnak egymáshoz. Ha a jellemzők nagy fokú energikusak (azaz nem kapcsolódnak egymáshoz), akkor kevés információt osztnak meg egymással, vagy egyáltalán nem osztják meg egymást, és a faberendezésük nem eredményez nagy prediktív pontosságot. Ha nem ez a helyzet, megpróbálhat véletlenszerű erdők modellt.

A kiemelés akkor is jól működik, ha a jellemzőknél sokkal több példa van, mert a modell túlilledése nagy réni fog.
Ne normalizálja az adatkészletet. Mivel a jellemzők kezelése egyszerű, nem parametrikus, kisebb vagy nagyobb összehasonlítás, a normalizálásnak vagy a nem monoton átalakítási függvények bármely formájának kis hatása lehet.
A funkciók a betanítás előtt diszkrétek és tárolódnak, így még a folyamatos funkciók esetében is csak viszonylag kis küszöbérték-jelölteket kell figyelembe venni.

Megvalósítás részletei

A megnövelt döntési fa algoritmussal kapcsolatos részletes információkért lásd: Greedy Function Approximation: A Gradient Boosting Machines(Greedy Function Approximation: A Gradient Boosting Machines).

A megnövelt döntésifa-algoritmus Machine Learning a következő kiemelési módszert használja:

Kezdje egy üres, gyenge tanulókból álló együttessel.
Minden betanítási példához le kell kapnia az együttes aktuális kimenetét. Ez az együttes összes gyenge tanuló eredményének összege.
Számítsa ki az egyes példa veszteségi függvényének színátmenetét.

Ez attól függ, hogy a feladat bináris besorolási vagy regressziós probléma-e.
- A bináris besorolási modellekben a naplóvesztést a logisztikai regresszióhoz hasonlóan használjuk.
- A regressziós modellben a négyzetes veszteség lesz használva, a színátmenet pedig az aktuális kimenet, a cél nélkül).
A példák segítségével elfér egy gyenge tanuló, a célként meghatározott gradiens használatával.
Adja hozzá ezt a gyenge tanulót az együtteshez a tanulási sebesség által jelzett erősség mellett, és ha szükséges, lépjen a 2. lépésre.

Ebben az implementációban a gyenge tanulók a legkisebb négyzetes regressziós fák a 3. lépésben kiszámított színátmenetek alapján. A fákra a következő korlátozások vonatkoznak:
- Legfeljebb a levelek maximális számát tanítja be a rendszer.
- Minden levélhez legalább néhány példa áll a túlilledés elleni védelemhez.
- Minden döntési csomópont egyetlen funkció, amely egy adott küszöbértékhez képest van összehasonlítva. Ha ez a funkció kisebb vagy egyenlő, mint a küszöbérték, akkor az egyik útvonalon lefelé halad, és ha meghaladja a küszöbértéket, akkor a másik útvonalon halad le.
- Minden levélcsomópont egy állandó érték.
A fakiépítési algoritmus greedily kiválasztja azt a jellemzőt és küszöbértéket, amelynek felosztása a 3. lépésben kiszámított gradienshez minimálisra csökkenti a négyzetre csökkentést. A felosztás kiválasztására levélenként legalább néhány betanítás vonatkozik.

Az algoritmus többször feloszt, amíg el nem éri a levelek maximális számát, vagy amíg nem érhető el érvényes felosztás.

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Levelek maximális száma fánként	>=1	Egész szám	20	A fánként megengedett levelek maximális számának megadása
Minták minimális száma levélcsomópontonként	>=1	Egész szám	10	A levél formában való formában megkövetelt esetek minimális számának megadása
Tanulási sebesség	[double. Epsilon;1.0]	Float	0,2	A kezdeti tanulási sebesség megadása
A felépített fák száma	>=1	Egész szám	100	Adja meg a betanítás során létrehozható fák maximális számát
Véletlenszerű szám kezdőszáma	Bármelyik	Egész szám		Írjon be egy értéket a modell által használt véletlenszám-generátor kezdőértékeként. Hagyja üresen az alapértelmezett értéket.
Ismeretlen kategorikus szintek engedélyezése	Bármelyik	Logikai	Igaz	Ha igaz, minden kategorikus oszlophoz egy további szint jön létre. A tesztadatkészletnek a betanítás adatkészletében nem elérhető szintjei erre a további szintre vannak leképezve.

Kimenet

Név	Típus	Description
Nem képezett modell	ILearner interfész	Nem korlátozott bináris besorolási modell

Lásd még

Osztályozás
Súlyozott döntési fa típusú regresszió
A-Z modullista

Megosztás a következőn keresztül: