Kétosztályos döntési erdő összetevő
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
Ezzel az összetevővel létrehozhat egy gépi tanulási modellt a döntési erdők algoritmusa alapján.
A döntési erdők gyors, felügyelt együttes modellek. Ez az összetevő akkor jó választás, ha legfeljebb két kimenetelű célt szeretne előrejelezni.
A döntési erdők ismertetése
Ez a döntési erdő algoritmus a besorolási feladatokhoz használt együttes tanulási módszer. Az együttes metódusok azon az általános alapelven alapulnak, hogy ahelyett, hogy egyetlen modellre támaszkodnál, jobb eredményeket és általánosabb modellt érhet el több kapcsolódó modell létrehozásával és valamilyen módon való kombinálásával. Az együttesmodellek általában jobb lefedettséget és pontosságot biztosítanak, mint az önálló döntési fák.
Számos módon hozhat létre egyedi modelleket, és kombinálhatja őket egy együttesben. A döntési erdő ezen konkrét megvalósítása több döntési fa létrehozásával működik, majd a legnépszerűbb kimeneti osztályra szavaz . A szavazás az egyik legismertebb módszer az eredmény generálására egy együttes modellben.
- Számos egyéni besorolási fa jön létre a teljes adatkészlet használatával, de különböző (általában véletlenszerű) kiindulási pontok. Ez eltér a véletlenszerű erdő megközelítésétől, amelyben az egyes döntési fák csak az adatok vagy funkciók véletlenszerű részét használhatják.
- A döntési erdőfa minden fája a címkék nem normalizált gyakoriságú hisztogramját adja ki.
- Az aggregációs folyamat összegzi ezeket a hisztogramokat, és normalizálja az eredményt, hogy lekérje az egyes címkék "valószínűségeit".
- A magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.
A döntési fák általában számos előnnyel rendelkeznek a besorolási feladatokhoz:
- Rögzíthetik a nem lineáris döntési határokat.
- Sok adat betanítása és előrejelzése is lehetővé teszi, mivel hatékonyak a számításokban és a memóriahasználatban.
- A funkciók kiválasztása integrálva van a betanítási és besorolási folyamatokba.
- A fák zajos adatokat és számos funkciót képesek befogadni.
- Ezek nem parametrikus modellek, ami azt jelenti, hogy különböző eloszlásokkal képesek kezelni az adatokat.
Az egyszerű döntési fák azonban túl méretezhetők az adatokon, és kevésbé általánosíthatók, mint a fa együttesek.
További információ: Döntési erdők.
Konfigurálás
Adja hozzá a kétosztályos döntési erdő összetevőt a folyamathoz az Azure Machine Learningben, és nyissa meg az összetevő Tulajdonságok paneljét.
Az összetevő a Machine Learning alatt található. Bontsa ki az Inicializálás, majd a Besorolás elemet.
Az Újraampling metódushoz válassza ki az egyes fák létrehozásához használt metódust. A Zsákolás vagy a Replikálás lehetőség közül választhat.
Zsákolás: A zsákolást bootstrap-összesítésnek is nevezik. Ebben a módszerben minden fa egy új mintán nő, és úgy jön létre, hogy véletlenszerűen mintavételezi az eredeti adathalmazt helyettesítővel, amíg nem rendelkezik az eredeti méretű adatkészlettel.
A modellek kimeneteit szavazással kombináljuk, ami az összesítés egy formája. A besorolási döntési erdő minden fája a címkék nemnormalizált gyakoriságú hisztogramját adja ki. Az összesítés a hisztogramok összegzése és normalizálása az egyes címkék "valószínűségeinek" lekéréséhez. Ily módon a magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.
További információkért lásd a Bootstrap-összesítés Wikipédiában található bejegyzését.
Replikálás: A replikáció során minden fa pontosan ugyanazokra a bemeneti adatokra van betanítve. Az egyes facsomópontokhoz használt felosztási predikátum meghatározása véletlenszerű marad, és a fák változatosak lesznek.
Adja meg a modell betanításának módját a Kiképző létrehozása mód beállításával.
Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a modellt, megadhat egy adott értékhalmazt argumentumként.
Paramétertartomány: Ha nem biztos a legjobb paraméterekben, az optimális paramétereket a Modell hiperparaméterek finomhangolása összetevővel találja meg. Megadhat néhány értéktartományt, és a tréner a beállítások több kombinációját is megszabadítja a legjobb eredményt eredményező értékek kombinációjának meghatározásához.
A döntési fák száma mezőbe írja be az együttesben létrehozható döntési fák maximális számát. További döntési fák létrehozásával jobb lefedettséget érhet el, de a betanítási idő nő.
Feljegyzés
Ha az értéket 1 értékre állítja. Azonban csak egy fa állítható elő (a kezdeti paraméterekkel rendelkező fa), és további iterációk nem végezhetők el.
A döntési fák maximális mélységéhez írjon be egy számot a döntési fák maximális mélységének korlátozásához. A fa mélységének növelése növelheti a pontosságot, a túlillesztés és a megnövekedett betanítási idő kockázatával.
A levélcsomópontonkénti minták minimális számaként adja meg a fa bármely terminálcsomópontjának (levélének) létrehozásához szükséges minimális számú esetet.
Az érték növelésével növeli az új szabályok létrehozásának küszöbértékét. Ha például az alapértelmezett érték 1, akkor akár egyetlen eset is létrehozhat egy új szabályt. Ha az értéket 5-re növeli, a betanítási adatoknak legalább öt, azonos feltételeknek megfelelő esetet kell tartalmazniuk.
A kategorikus funkciók ismeretlen értékeinek engedélyezése lehetőség kiválasztásával hozzon létre egy csoportot ismeretlen értékekhez a betanítási vagy érvényesítési csoportokban. Előfordulhat, hogy a modell kevésbé pontos az ismert értékekhez, de jobb előrejelzéseket adhat az új (ismeretlen) értékekhez.
Ha törli ezt a jelölőnégyzetet, a modell csak a betanítási adatokban található értékeket fogadja el.
Csatoljon egy címkézett adatkészletet, és tanítsa be a modellt:
Ha a Kiképző létrehozása módot egyetlen paraméterre állítja, csatlakoztassa a címkézett adatkészletet és a Modell betanítása összetevőt.
Ha paramétertartományra állítja a Kiképző létrehozása módot, csatlakoztassa a címkézett adatkészletet, és betanítsa a modellt a modell hiperparamétereinek finomhangolásával.
Feljegyzés
Ha paramétertartományt ad át a modell betanítása gombra, az csak az egyetlen paraméterlistában szereplő alapértelmezett értéket használja.
Ha egyetlen paraméterértéket ad át a Modell hiperparaméterek hangolása összetevőnek, amikor az egyes paraméterekhez egy beállítástartományt vár, figyelmen kívül hagyja az értékeket, és az alapértelmezett értékeket használja a tanuló számára.
Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer a takarítás során az ön által megadott egyetlen értéket használja, még akkor is, ha más paraméterek egy értéktartományon belül változnak.
Results (Eredmények)
A betanítás befejezése után:
A betanított modell pillanatképének mentéséhez válassza a Kimenetek lapot a Modell betanítása összetevő jobb oldali paneljén. A modell újrafelhasználható összetevőként való mentéséhez válassza az Adatkészlet regisztrálása ikont.
A modell pontozáshoz való használatához adja hozzá a Score Model összetevőt egy folyamathoz.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.