Megosztás a következőn keresztül:


Two-Class Döntési erdő összetevő

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Ezzel az összetevővel létrehozhat egy gépi tanulási modellt a döntési erdők algoritmusa alapján.

A döntési erdők gyors, felügyelt együttes modellek. Ez az összetevő akkor jó választás, ha legfeljebb két kimenetelű célt szeretne előrejelezni.

Döntési erdők ismertetése

Ez a döntési erdő algoritmus egy besorolási feladatokhoz használható együttes tanulási módszer. Az együttes metódusok azon az általános elven alapulnak, hogy egyetlen modell helyett jobb eredményeket és általánosabb modellt kaphat több kapcsolódó modell létrehozásával és valamilyen módon való kombinálásával. Az együttes modellek általában jobb lefedettséget és pontosságot biztosítanak, mint az egyetlen döntési fák.

Számos módon hozhat létre egyedi modelleket, és kombinálhatja őket egy együttesben. A döntési erdő ezen konkrét megvalósítása több döntési fa létrehozásával, majd a legnépszerűbb kimeneti osztályra való szavazással működik. A szavazás az egyik ismert módszer az eredmények együttes modellben való létrehozására.

  • Számos egyéni besorolási fa jön létre a teljes adatkészlet használatával, de eltérő (általában véletlenszerű) kiindulási pontok. Ez eltér a véletlenszerű erdő megközelítésétől, amelyben az egyes döntési fák csak az adatok vagy funkciók véletlenszerű részét használhatják.
  • A döntési erdőfa minden fája a címkék nem normalizált gyakoriságú hisztogramját adja ki.
  • Az aggregációs folyamat összegzi ezeket a hisztogramokat, és normalizálja az eredményt, hogy az egyes címkék "valószínűségeit" megkapja.
  • A magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.

A döntési fák általában számos előnnyel rendelkeznek a besorolási feladatokhoz:

  • Rögzíthetik a nem lineáris döntési határokat.
  • Sok adat betanítása és előrejelzése lehet, mivel hatékonyak a számításban és a memóriahasználatban.
  • A funkcióválasztás integrálva van a betanítási és besorolási folyamatokba.
  • A fák zajos adatokat és számos funkciót tartalmazhatnak.
  • Ezek nem parametrikus modellek, ami azt jelenti, hogy különböző eloszlásokkal képesek kezelni az adatokat.

Az egyszerű döntési fák azonban túl alkalmasak az adatokra, és kevésbé általánosíthatók, mint a facsoportok.

További információ: Döntési erdők.

Konfigurálás

  1. Adja hozzá a kétosztályos döntési erdő összetevőt a folyamathoz az Azure Machine Learningben, és nyissa meg az összetevő Tulajdonságok paneljét.

    Az összetevőt a Gépi tanulás területen találja. Bontsa ki az Inicializálás, majd a Besorolás elemet.

  2. A Resampling metódushoz válassza ki az egyes fák létrehozásához használt metódust. A Zsákolás vagy a Replikálás lehetőség közül választhat.

    • Zsákolás: A zsákolást bootstrap-összesítésnek is nevezik. Ebben a módszerben minden fát egy új mintán termesztenek, amely úgy jön létre, hogy véletlenszerűen mintavételezi az eredeti adathalmazt helyettesítővel, amíg nem rendelkezik az eredeti adathalmaz méretével.

      A modellek kimeneteit szavazással kombináljuk, amely az összesítés egy formája. A besorolási döntési erdő minden fája a címkék nemnormalizált gyakoriságú hisztogramját adja ki. Az összesítés a hisztogramok összegzése és normalizálása az egyes címkék "valószínűségeinek" lekéréséhez. Ily módon a magas előrejelzési megbízhatóságú fák nagyobb súlyt kapnak az együttes végső döntésében.

      További információt a Bootstrap-összesítés wikipédiában talál.

    • Replikálás: A replikáció során minden fa pontosan ugyanazokat a bemeneti adatokat tanítja be. Annak meghatározása, hogy melyik felosztási predikátumot használja az egyes facsomópontokhoz, véletlenszerű marad, és a fák változatosak lesznek.

  3. A Modell betanításának módját a Tréner mód létrehozása beállítással adhatja meg.

    • Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a modellt, argumentumként megadhat egy adott értékkészletet.

    • Paramétertartomány: Ha nem biztos a legjobb paraméterekben, az optimális paramétereket a Modell hiperparaméterek hangolása összetevővel találja meg. Megadhat néhány értéktartományt, és a tréner a beállítások több kombinációját is iterálja, hogy meghatározza az értékek kombinációját, amelyek a legjobb eredményt adják.

  4. A Döntési fák száma mezőbe írja be az együttesben létrehozható döntési fák maximális számát. További döntési fák létrehozásával jobb lefedettséget érhet el, de a betanítási idő nő.

    Megjegyzés

    Ha az értéket 1 értékre állítja. Azonban csak egy fa állítható elő (a kezdeti paraméterkészlettel rendelkező fa), és nincs további iteráció.

  5. A döntési fák maximális mélysége mezőbe írjon be egy számot a döntési fák maximális mélységének korlátozásához. A fa mélységének növelése növelheti a pontosságot, a túlillesztés és a megnövekedett betanítási idő kockázatával.

  6. A levélcsomópontonkénti minták minimális száma esetén adja meg azoknak az eseteknek a minimális számát, amelyek a fa bármely terminálcsomópontja (levél) létrehozásához szükségesek.

    Az érték növelésével megnövelheti az új szabályok létrehozásának küszöbértékét. Ha például az alapértelmezett érték 1, akár egyetlen esettel is létrejön egy új szabály. Ha az értéket 5-re növeli, a betanítási adatoknak legalább öt, azonos feltételeknek megfelelő esetet kell tartalmazniuk.

  7. Válassza az Ismeretlen értékek engedélyezése kategorikus funkciókhoz lehetőséget, és hozzon létre egy csoportot ismeretlen értékekhez a betanítási vagy érvényesítési csoportokban. Előfordulhat, hogy a modell kevésbé pontos az ismert értékekhez, de jobb előrejelzéseket adhat az új (ismeretlen) értékekhez.

    Ha törli ezt a jelölőnégyzetet, a modell csak a betanítási adatokban szereplő értékeket fogadja el.

  8. Csatoljon egy címkézett adatkészletet, és tanítsa be a modellt:

    Megjegyzés

    Ha paramétertartományt ad át a Modell betanítása szolgáltatásnak, az csak az egyetlen paraméterlistában szereplő alapértelmezett értéket használja.

    Ha egyetlen paraméterérték-készletet ad át a Modell hiperparaméterek hangolása összetevőnek, amikor az az egyes paraméterekre vonatkozó beállítástartományt vár, figyelmen kívül hagyja az értékeket, és az alapértelmezett értékeket használja a tanulóhoz.

    Ha a Paramétertartomány lehetőséget választja, és egyetlen értéket ad meg bármely paraméterhez, akkor a rendszer az adott értéket használja a takarítás során, még akkor is, ha más paraméterek egy értéktartományon belül változnak.

Results (Eredmények)

A betanítás befejezése után:

  • A betanított modell pillanatképének mentéséhez válassza a Kimenetek lapot a Modell betanítása összetevő jobb oldali paneljén. Válassza az Adathalmaz regisztrálása ikont a modell újrafelhasználható összetevőként való mentéséhez.

  • A modell pontozáshoz való használatához adja hozzá a Score Model összetevőt egy folyamathoz.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .