Megosztás a következőn keresztül:


Kétosztályos döntési erdő

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Kétosztályos besorolási modellt hoz létre a döntési erdő algoritmusával

Kategória: Machine Learning / Modell inicializálása / Besorolás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk bemutatja, hogyan hozhat létre gépi tanulási modellt a döntési erdők algoritmusa alapján a Machine Learning Studio kétosztályos döntési erdő moduljával.

A döntési erdők gyors, felügyelt együttes modellek. Ez a modul akkor jó választás, ha legfeljebb két eredményre szeretne előrejelezni egy célt. Ha nem tudja, hogyan konfigurálhat döntésifa-modellt a legjobb eredményekhez, javasoljuk, hogy a Modell hiperparaméterek hangolása modult használja több modell betanítására és tesztelésére. A hangolás több lehetőséget is átvesz, és megtalálja az Önnek megfelelő megoldást.

A döntési erdők ismertetése

Ez a döntési erdő algoritmus egy olyan együttes tanulási módszer, amely besorolási feladatokhoz készült. Az együttes módszerek alapja az általános alapelv, hogy egyetlen modell helyett jobb eredményeket és általánosabb modelleket kaphat, ha több kapcsolódó modellt hoz létre, és valamilyen módon kombinálja őket. Az együttes modellek általában jobb lefedettséget és pontosságot biztosítanak, mint az egyes döntési fák.

Az egyes modellek sokféleképpen létrehozhatóak, és együttesen kombinálhatóak. A döntési erdő ezen implementációja több döntési fát hoz létre, majd a legnépszerűbb kimeneti osztályra szavaz. A szavazás az egyik jobban ismert módszer az eredmények egy együttes modellben való előállítására.

  • Számos egyéni besorolási fa jön létre a teljes adatkészlet használatával, de különböző (általában véletlenszerű) kiindulási pontok. Ez eltér a véletlenszerű erdő módszertől, amelyben az egyes döntési fák csak az adatok vagy jellemzők egy részét használják véletlenszerűen.
  • A döntési erdőfa minden fája címkék nem normalizált gyakoriságú hisztogramját ad vissza.
  • Az összesítési folyamat összegzi ezeket a hisztogramokat, és normalizálja az eredményt, hogy az egyes címkék "valószínűségét" kapják meg.
  • A magas előrejelzési megbízhatóságú fák nagyobb súlyozást fognak kihozni az együttes végső döntésében.

A döntési fák általában számos előnnyel járnak a besorolási feladatokhoz:

  • Rögzítheti a nem lineáris döntési határokat.
  • Sok adatot betaníthat és előrejelezhet, mivel hatékonyak a számításban és a memóriahasználatban.
  • A funkciók kiválasztása integrálva van a betanítási és besorolási folyamatokba.
  • A fák elférnek a zajos adatokkal és számos jellemzővel.
  • Ezek nem parametrikus modellek, tehát különböző eloszlásokkal kezelik az adatokat.

Az egyszerű döntési fák azonban túlillednek az adatokon, és kevésbé általánosak, mint a fastruktúrák.

További információkért lásd a döntési erdőket vagy a műszaki megjegyzések szakaszban felsorolt egyéb dokumentumokat .

A döntési Two-Class konfigurálása

  1. Adja hozzá a kétosztályos döntési erdő modult a Machine Learning Studióban található kísérlethez, és nyissa meg a modul Tulajdonságok panelét.

    A modult a következő Machine Learning. Bontsa ki az Inicializálás, majd a Besorolás bontsa ki.

  2. Az Újrabélyegző metódushoz válassza ki az egyes fák létrehozásához használt metódust. A Címkézés vagy a Replikálás közülválaszthat.

    • Címkézés: A címkézést bootstrap-összesítésnek is nevezik. Ebben a módszerben minden fa egy új mintán lesz megnőve, amelyet az eredeti adatkészlet véletlenszerű mintavételezésével hozunk létre csere alapján, amíg meg nem áll az eredeti adatkészlet mérete.

      A modellek kimenetei a szavazással vannak kombinálva, amely az összesítés egyik formája. A besorolási döntési erdő minden fája címkék nem normalizált gyakoriságú hisztogramját ad vissza. Az aggregáció ezeknek a hisztogramnak az összegzése és normalizálása, hogy az egyes címkék "valószínűségét" kapják meg. Ily módon a magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak majd az együttes végső döntésében.

      További információért tekintse meg a Bootstrap-aggregációról a Wikipédia-bejegyzést.

    • Replikálás: A replikáció során minden fa pontosan ugyanazokkal a bemeneti adatokkal van betanítva. Annak meghatározása, hogy melyik felosztási predikátum van használva az egyes facsomóponthoz, véletlenszerű marad, és a fák változatosak lesznek.

      A Replikálás lehetőséggel a betanítási folyamattal kapcsolatos további információkért tekintse meg a műszaki megjegyzések szakaszban felsorolt tanulmányokat .

  3. Az Oktatói mód létrehozása beállítással adhatja meg, hogyan szeretné betanítni a modellt.

    • Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a modellt, argumentumként egy adott értékkészletet is meg lehet adni.

    • Paramétertartomány: Ha nem biztos a legjobb paraméterekben, több érték megadásával és a Modell hiperparaméterek hangolása modullal megkeresheti az optimális konfigurációt. Az edző a megadott beállítások több kombinációján iterál, és meghatározza a legjobb modellt előállító értékek kombinációját.

  4. A Döntési fák száma mezőbe írja be az együttesen létrehozható döntési fák maximális számát. További döntési fák létrehozásával jobb lefedettséget kaphat, de a betanítás ideje nő.

    Megjegyzés

    Ez az érték a betanított modell vizualizációjakor megjelenő fák számát is szabályozza. Ha egyetlen fát szeretne látni vagy kinyomtatni, beállíthatja az értéket 1-re. Azonban csak egy fa (a kezdeti paraméterkészletet megszabadó fa) készülhet el, és a rendszer nem hajt végre további iterációkat.

  5. A döntési fák maximális mélysége mezőbe írjon be egy számot a döntési fák maximális mélységének korlátozásához. A fa mélységének növelése növelheti a pontosságot, ami bizonyos túlilledés és a betanítás nagyobb időének kockázatával jár.

  6. A Number of random splits per node (Véletlenszerű felosztások száma csomópontonként) mezőbe írja be, hogy hány felosztást kell használnia a fa egyes csomópontjának kiépítésekor. A felosztás azt jelenti, hogy a fa (csomópont) egyes szintjeiben található jellemzők véletlenszerűen vannak elosztva.

  7. A Minták minimális száma levélcsomópontonként mezőben adja meg a fában található terminálcsomópont (levél) létrehozásához szükséges esetek minimális számát.

    Az érték növelésével megnöveli az új szabályok létrehozásának küszöbértékét. Ha például az alapértelmezett érték 1, akkor akár egyetlen eset is létrehozhat egy új szabályt. Ha 5-re növeli az értéket, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie.

  8. Válassza az Ismeretlen értékek engedélyezése kategorikus funkciókhoz lehetőséget, hogy létrehoz egy csoportot a betanítás vagy az ellenőrzési készlet ismeretlen értékeihez. Előfordulhat, hogy a modell kevésbé pontos az ismert értékek esetében, de jobb előrejelzéseket ad az új (ismeretlen) értékekről.

    Ha nem választja ki ezt a beállítást, a modell csak a betanítás adataiban szereplő értékeket tudja elfogadni.

  9. Csatoljon egy címkével jelölt adatkészletet és az egyik betanító modult:

    Megjegyzés

    Ha paramétertartományt ad át a Modell betanítása mezőnek, a paramétertartomány listájában csak az első érték lesz használva.

    Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása modulnak, és az egyes paraméterekhez egy beállítástartományt vár, az figyelmen kívül hagyja az értékeket, és a tanuló alapértelmezett értékeit használja.

    Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer ezt az értéket használja a teljes tartományban, még akkor is, ha más paraméterek változnak egy értéktartományban.

Results (Eredmények)

A betanítás befejezése után:

  • Az egyes iterációkban létrehozott fa megjelenítéséhez kattintson a jobb gombbal a Modell betanítási modulja elemre, és válassza a Betanított modell lehetőséget a vizualizációhoz. Ha a Modell hiperparaméterek hangolása lehetőséget használja, kattintson a jobb gombbal a modulra, és válassza a Betanított legjobb modell lehetőséget a legjobb modell megjelenítéséhez.

    Kattintson az egyes fákra a felosztások részletezésében, és tekintse meg az egyes csomópontok szabályait.

  • A modell pillanatképének mentéshez kattintson a jobb gombbal a Betanított modell kimenetére, és válassza a Modell mentése lehetőséget. A mentett modell nem frissül a kísérlet egymást követő futtatásaikor.

  • Ha a modellt pontozáshoz szeretne használni, adja hozzá a Score Model (Modell pontozása ) modult egy kísérlethez.

Példák

A döntési erdők gépi tanulásban való használatára vonatkozó példákért tekintse meg a következő mintakísérleteket a Azure AI Gallery:

  • Hírek kategorizálása: Összehasonlít egy többosztályos osztályozót egy olyan modellel, amely a kétosztályos döntési erdő algoritmus és a One-vs-All Multiclass.

  • Prediktív karbantartás: Kiterjesztett bemutató, amely a kétosztályos döntési erdő algoritmusával előrejelezi, hogy egy eszköz egy adott időkereten belül meghiúsul-e.

Technikai megjegyzések

Ez a szakasz további megvalósítási adatokat, kutatásokat és gyakori kérdéseket tartalmaz.

Használati tippek

Ha korlátozott mennyiségű adat áll rendelkezésre, vagy szeretné minimálisra csökkenteni a modell betanítása során töltött időt, próbálja meg a következő beállításokat:

Korlátozott betanítás

Ha a betanítás készlet korlátozott számú példányt tartalmaz:

  • Hozza létre a döntési erdőt nagy számú döntési fával (például több mint 20-ával).
  • Használja a Címkézés lehetőséget az újrabélyegzéshez.
  • Adjon meg nagy számú véletlenszerű felosztást csomópontonként (például több mint 1000).

Korlátozott betanítás

Ha a betanítás készlet sok példányt tartalmaz, és a betanítás ideje korlátozott:

  • Hozza létre a döntési erdőt kevesebb döntési fával (például 5–10).
  • Használja a Replikálás lehetőséget az újrabélyegezéshez.
  • Adjon meg kisebb számú véletlenszerű felosztást csomópontonként (például kevesebb mint 100).

Megvalósítás részletei

A Microsoft Research ebből a cikkből hasznos információkat talál a döntési fákat használó együttes módszerekről. A Stumpstól a fáktól az erdőkön át.

A Replikálás lehetőséggel végzett betanítási folyamattal kapcsolatos további információkért lásd: Döntési erdők a Computer Vision és orvosi képelemzés. Criminisi és J. Shotton. Springer 2013.

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Újrabélyegző metódus Bármelyik ResamplingMethod Zsákoló Újrabélyegző módszer kiválasztása
Döntési fák száma >=1 Egész szám 8 Adja meg az együttesen létrehozni kívánt döntési fák számát
A döntési fák maximális mélysége >=1 Egész szám 32 Bármely létrehozható döntési fa maximális mélységének megadása
Véletlenszerű felosztások száma csomópontonként >=1 Egész szám 128 Adja meg a csomópontonként létrehozott felosztások számát, amelyekből az optimális felosztás van kiválasztva
Minták minimális száma levélcsomópontonként >=1 Egész szám 1 Adja meg a levélcsomópont előállításához szükséges betanító minták minimális számát
Ismeretlen értékek engedélyezése kategorikus jellemzők számára Bármelyik Logikai Igaz Annak jelzése, hogy a meglévő kategorikus jellemzők ismeretlen értékei leképezése lehetséges-e egy új, további jellemzőre

Kimenet

Név Típus Description
Nem korlátozott modell ILearner interfész Nem korlátozott bináris besorolási modell

Lásd még

Osztályozás
Döntési erdő típusú regresszió
Többosztályos döntési erdő
A–Z modullista