Megosztás a következőn keresztül:


Gyors erdő típusú kvantilis regresszió

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Kvantilises regressziós modellt hoz létre

Kategória: Machine Learning / Modell inicializálása / Regresszió

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Fast Forest Quantile Regression modul a Machine Learning Studio (klasszikus) moduljában egy olyan regressziós modell létrehozásához, amely képes előrejelezni adott számú kvantilis értékeit.

A kvantilises regresszió akkor hasznos, ha többet szeretne tudni az előrejelezni kívánt érték eloszlásról, és nem egyetlen átlagos előrejelzési értéket szeretne kapni. Ez a módszer számos alkalmazással rendelkezik, beleértve a következőket:

  • Árak előrejelzése

  • Tanulók teljesítményének becslése vagy növekedési diagramok alkalmazása a gyermekfejlesztés felméréséhez

  • Prediktív kapcsolatok felderítése olyan esetekben, amikor csak gyenge a változók közötti kapcsolat

Ez a regressziós algoritmus egy felügyelt tanulási módszer, ami azt jelenti, hogy címkeoszlopot tartalmazó címkézett adatkészletre van szükség. Mivel ez egy regressziós algoritmus, a címkeoszlopnak csak numerikus értékeket kell tartalmaznia.

További információ a kvantilises regresszióról

A regressziónak számos típusa létezik. A regresszió a legapvetőbb értelemben azt jelenti, hogy egy modellt egy numerikus vektorként kifejezett célhoz kell illesztenünk. A statisztikusok azonban egyre fejlettebb regressziós módszereket fejlesztnek.

A kvantilis legegyszerűbb definíciója egy érték, amely egyenlő méretű csoportokra osztja az adathalmazt; így a kvantilisértékek a csoportok közötti határokat jelölik. Statisztikailag a kvantilisek rendszeres időközönkénti értékek egy véletlenszerű változó kumulatív eloszlásfüggvénnyel (CDF) inverzében.

Míg a lineáris regressziós modellek egyetlen becsléssel kísérelik meg előrejelezni egy numerikus változó értékét, ez a számérték, olykor a célváltozó tartományát vagy teljes eloszlását is előre kell jeleznie. Erre a célra olyan technikákat fejlesztettek ki, mint a Bayes-regresszió és a kvantilis regresszió.

A kvantilises regresszió segít megérteni az előrejelzített érték eloszlását. Az ebben a modulban használthoz hasonló faalapú kvantilis-regressziós modellek további előnye, hogy a nem parametrikus eloszlásokat is előrejelzi.

Az implementációval kapcsolatos további részletekért és forrásanyagért tekintse meg a Műszaki megjegyzések szakaszt .

A kvantilises regresszió Fast_Forest konfigurálása

Ezzel a modullal konfigurálhatja a regressziós modell tulajdonságait, majd betaníthatja valamelyik betanítási modullal.

A konfigurációs lépések jelentősen eltérnek attól függően, hogy rögzített paraméterkészletet ad-e meg, vagy paraméteres lekérdezést ad meg.

Kvantilises regressziós modell létrehozása rögzített paraméterekkel

Feltéve, hogy tudja, hogyan szeretné konfigurálni a modellt, argumentumként egy adott értékkészletet is meg lehet adni. A modell betanításkor használja a Modell betanítás használhatja.

  1. Adja hozzá a Fast Forest Quantile Regression modult a kísérlethez a Studióban (klasszikus).

  2. Állítsa az Oktatói mód létrehozása beállítástEgyparaméteresre.

  3. A Number of Trees (Fák száma) mezőbe írja be az együttesen létrehozható fák maximális számát. Ha több fát hoz létre, az általában nagyobb pontossághoz vezet, de hosszabb betanítás árán.

  4. A Levelek száma mezőbe írja be a bármely fában létrehozható levelek vagy terminálcsomópontok maximális számát.

  5. A levél létrehozásához szükséges betanító példányok minimális száma beállításnál adja meg, hogy legalább hány példa szükséges egy fa terminálcsomópont (levél) létrehozásához.

    Ennek az értéknek a növelésével megnöveli az új szabályok létrehozásának küszöbértékét. Például az alapértelmezett 1 értékkel akár egyetlen eset is létrehozhat egy új szabályt. Ha az értéket 5-re növeli, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie

  6. A Bagging fraction (Felcímkézés törtszáma) beállításnál adjon meg egy 0 és 1 közötti számot, amely a kvantilisek egyes csoportjának kiépítésekor használt minták töredékét jelöli. A minták véletlenszerűen vannak kiválasztva, cserékkal.

  7. A Jellemző törtrésze mezőbe írjon be egy 0 és 1 közötti számot, amely egy adott fa kiépítésekor használt összes jellemző törtrészét jelzi. A jellemzőket mindig véletlenszerűen választjuk ki.

  8. A Felosztási tört mezőbe írjon be egy 0 és 1 közötti számot, amely a fa egyes felosztásában használt jellemzők törtrészét jelöli. A használt jellemzőket mindig véletlenszerűen választjuk ki.

  9. A Kvantilis-minták száma mezőbe írja be, hogy hány esetet kell kiértékelni a kvantilisek becslésekor.

  10. Ahhoz , hogy a kvantilis megbecsülhető legyen, írja be azon kvantilisek vesszővel elválasztott listáját, amelyekhez a modellt betanítani és előrejelzéseket szeretne létrehozni.

    Ha például olyan modellt szeretne felépíteni, amely kvartiliseket becsül meg, a következőt kell begépelni: 0.25, 0.5, 0.75.

  11. Igény szerint be is írható a Véletlenszerű szám kezdőértéke a modell által használt véletlenszám-generátor kezdőértékének bevetéseként. Az alapértelmezett érték 0, ami azt jelenti, hogy véletlenszerű kezdőérték van kiválasztva.

    Akkor adjon meg értéket, ha az eredményeket az ugyanazon az adatokon való egymást követő futtatásokkal kell reprodukálni.

  12. Válassza az Ismeretlen kategorikus szintek engedélyezése lehetőséget az ismeretlen értékek csoportjának létrehozásához.

    Ha a kijelölést nem, a modell csak a betanítás adataiban szereplő értékeket tudja elfogadni.

    Ha ezt a lehetőséget választja, előfordulhat, hogy a modell kevésbé lesz pontos az ismert értékekhez, de jobb előrejelzéseket biztosít az új (ismeretlen) értékekhez.

  13. Csatlakozás adatkészlet létrehozása, egyetlen címkeoszlop kiválasztása, majd a Modell betanítása összekapcsolása.

  14. Futtassa a kísérletet.

Paraméteres lekérdezés használata kvantilises regressziós modell létrehozásához

Ha nem biztos a modell optimális paramétereiben, konfigurálhat egy paraméteres lekérdezést, és argumentumként egy értéktartományt is meg lehet adni. A modell betanításkor használja a Modell hiperparaméterek hangolása modult .

  1. Adja hozzá a Fast Forest Quantile Regression modult a kísérlethez a Studióban (klasszikus).

  2. Állítsa az Oktatói mód létrehozása beállítástParamétertartomány lehetőségre.

    Ha nem biztos a legjobb paraméterekben, javasoljuk a paraméteres siklázást. Ha több értéket ad meg, és a Modell hiperparaméterek hangolása modullal betanítja a modellt, megkeresheti az adatokhoz optimális paraméterkészletet.

    A paraméteres átvizsgálás kiválasztása után minden beállítható tulajdonsághoz egyetlen vagy több értéket is be lehet állítani. Dönthet például úgy, hogy kijavítja a fák számát, de véletlenszerűen módosít más értékeket, amelyek az egyes fák építési módját szabályozják.

    • Ha egyetlen értéket ad meg, a teljes siklelés összes iterációja ezt az értéket használja, még akkor is, ha más értékek változnak.

    • Írjon be egy vesszővel elválasztott listát a használni használt különálló értékekről. Ezeket az értékeket más tulajdonságokkal együtt használjuk.

    • A Range Builder használatával folytonos értékek tartományát határozhatja meg.

    A betanítási folyamat során a Modell hiperparaméterek hangolása modul az értékek különböző kombinációin iterál a legjobb modell felépítéséhez.

  3. A Levelek maximális száma fánként mezőbe írja be az egyes fában engedélyező levelek vagy terminálcsomópontok teljes számát.

  4. A Felépített fák száma mezőbe írja be az együttes felépítéséhez végrehajtani szükséges iterációk számát. Ha több fát hoz létre, azzal jobb lefedettséget kaphat, ami a betanítás nagyobb időének rovására lehetséges.

  5. A Minta minimális száma levélcsomópontonként mezőben adja meg, hogy hány eset szükséges a levélcsomópont létrehozásához.

    Ennek az értéknek a növelésével megnöveli az új szabályok létrehozásának küszöbértékét. Például az alapértelmezett 1 értékkel akár egyetlen eset is létrehozhat egy új szabályt. Ha 5-re növeli az értéket, a betanítás adatainak legalább 5 olyan esetet kell tartalmazni, amelyek ugyanazoknak a feltételeknek felelnie.

  6. A Range for bagging fraction (Tartomány) mezőbe írja be a kvantilis-csoportok kiépítésekor használt minták hányadát. A minták véletlenszerűen vannak kiválasztva, cserékkal.

    Minden törtnek 0 és 1 közötti számnak kell lennie. Több törtet vesszővel válassza el egymástól.

  7. A Jellemző törtrészének tartománya mezőbe írja be a kvantilis-csoportok kiépítésekor használt összes jellemző hányadát. A jellemzők véletlenszerűen vannak kiválasztva.

    Minden törtnek 0 és 1 közötti számnak kell lennie; több törtet vesszővel kell elválasztani.

  8. A Felosztási tört tartománya beállításban adja meg az egyes kvantilis-csoportokban használni kívánt jellemzők egy részét. A ténylegesen használt jellemzőket véletlenszerűen választjuk ki.

    Minden törtnek 0 és 1 közötti számnak kell lennie; több törtet vesszővel kell elválasztani.

  9. A Kvantilis becsléséhez használt mintaszám mezőben adja meg, hogy hány mintát kell kiértékelni a kvantilisek becslésekor. Ha a rendelkezésre álló minták számnál nagyobb számot ad meg, az összes minta lesz használva.

  10. A Kötelező kvantilisértékek mezőbe írja be azon kvantilisek vesszővel elválasztott listáját, amelyeken a modellt betanítani szeretné. Ha például olyan modellt szeretne felépíteni, amely kvartiliseket becsül meg, a következőt kell begépelni: 0,25, 0,5, 0,75

  11. A Véletlenszám-kezdőérték mezőbe írjon be egy értéket a modell által használt véletlenszám-generátor kezdőértékének bevetéseként. A magok használata akkor hasznos, ha duplikált futtatásokat kell reprodukálni.

    Az alapértelmezett érték 0, ami azt jelenti, hogy véletlenszerű kezdőérték van kiválasztva.

  12. Válassza az Ismeretlen értékek engedélyezése kategorikus funkciókhoz lehetőséget, hogy csoportot hozzon létre a betanítás vagy az ellenőrzési készlet ismeretlen értékeihez.

    Ha nem választja ki ezt a beállítást, a modell csak a betanítás adataiban szereplő értékeket tudja elfogadni.

    Ha ezt a lehetőséget választja, előfordulhat, hogy a modell kevésbé lesz pontos az ismert értékekhez, de jobb előrejelzéseket biztosít az új (ismeretlen) értékekhez.

  13. Csatlakozás adatkészletet, válassza ki a címke oszlopot, és kösse össze a Modell hiperparaméterek hangolása modult.

    Megjegyzés

    Ne használja a Modell betanítását. Ha konfigurál egy paramétertartományt, de a betanítás a Modell betanítása használatával történik, az csak az első értéket használja a paramétertartományok listájában.

  14. Futtassa a kísérletet.

Results (Eredmények)

A betanítás befejezése után:

  • Az optimalizált modell végső hiperparaméterének megjelenítéséhez kattintson a jobb gombbal a Modell hiperparaméterek hangolása kimenetére, és válassza a Képi megjelenítés lehetőséget.

Példák

A modul használatára vonatkozó példákért tekintse meg a következő Azure AI Gallery:

  • Kvantilis-regresszió: Bemutatja, hogyan lehet számszerűsíthető regressziós modellt összeépíteni és értelmezni az automatikus ár adatkészlet használatával.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Megvalósítás részletei

A gyors erdő kvantilisregressziós modulja a Machine Learning a véletlenszerű erdő kvantilises regresszió implementációja döntési fák használatával. A véletlenszerű erdők segíthetnek elkerülni a döntési fák esetén előforduló túlilledéseket. A döntési fa egy bináris fa típusú folyamatdiagram, amelyben minden belső csomóponton az egyik a bemeneti jellemzők egyikének értéke alapján dönti el, hogy a két gyermekcsomópont közül melyiket folytassa.

Minden levélcsomópontban egy értéket ad vissza. A belső csomópontokon a döntés az "x≤v teszten alapul, ahol x a bemeneti mintában lévő jellemző értéke, a v pedig a funkció egyik lehetséges értéke. A regressziós fával előállított függvények mind a darabra ható konstans függvények.

Egy véletlenszerű erdőben a fák egy olyan együttese jön létre, amely címkék használatával véletlenszerű minták és a betanítás adatainak egy részkészletét választja ki, majd egy döntési fát illeszt az adatok minden részéhez. A véletlenszerű erdő algoritmustól eltérően, amely az összes fa kimenetét átlagolja, a Gyorserdő kvantilises regressziója a Quantile-mintaszám paraméter által meghatározott fákban tartja az összes előrejel jelzett címkét, és kimenetként adja ki az eloszlást, így a felhasználó megtekintheti az adott példány kvantilisértékét.

A kvantilises regresszióval kapcsolatos további információkért tekintse meg az alábbi könyveket és cikkeket:

Modulparaméterek

Név Típus Tartomány Választható Description Alapértelmezett
Oktatói mód létrehozása CreateLearnerMode (Létrehozási mód) Lista:Egyetlen paraméter| Paramétertartomány Kötelező Egyetlen paraméter Speciális tanulói beállítások létrehozása
Fák száma Egész szám mode:Egyparaméter 100 Adja meg a felépíteni kívánt fák számát
Levelek száma Egész szám mode:Egyparaméter 20 Adja meg a levelek fánkénti maximális számát. Az alapértelmezett szám 20
Levél formában betanított példányok minimális száma Egész szám mode:Egyparaméter 10 Azt jelzi, hogy legalább hány betanítás szükséges a levél formában
Tört címkézése Float mode:Egyparaméter 0.7 Az egyes fához használt betanításadatok hányadát adja meg
Jellemző törtrésze Float mode:Egyparaméter 0.7 Az egyes fákhoz használt jellemzők (véletlenszerűen kiválasztott) hányadát adja meg
Tört felosztása Float mode:Egyparaméter 0.7 Meghatározza az egyes felosztások jellemzőinek (véletlenszerűen választott) hányadát
Kvantilismintaszám Egész szám Max: 2147483647 mode:Egyparaméter 100 Az egyes csomópontok példányainak számát határozza meg a kvantilisek becsléséhez
A becsült kvantilisek Sztring mode:Egyparaméter "0.25;0.5;0.75" A becsült kvantilist adja meg
Véletlenszerű szám kezdőszáma Egész szám Választható Adja meg a modell által használt véletlenszám-generátor kezdőszámát. Hagyja üresen az alapértelmezett értéket.
Ismeretlen kategorikus szintek engedélyezése Logikai Kötelező true Ha igaz, hozzon létre egy további szintet minden kategorikus oszlophoz. A tesztadatkészletnek a betanítás adatkészletben nem elérhető szintjei erre a további szintre vannak leképezve.
Levelek maximális száma fánként ParameterRangeSettings [16;128] mode:Paramétertartomány 16; 32; 64 Tartomány megadása a fánként megengedett levelek maximális számához
A felépített fák száma ParameterRangeSettings [1;256] mode:Paramétertartomány 16; 32; 64 Adja meg a betanítás során maximálisan létrehozható fák számát
Minták minimális száma levélcsomópontonként ParameterRangeSettings [1;10] mode:Paramétertartomány 1; 5; 10 Adja meg a levél formában való formában szükséges esetek minimális számának tartományát
Tartomány a törtszámok címkézésére ParameterRangeSettings [0.25;1.0] mode:Paramétertartomány 0.25; 0.5; 0.75 Megadja az egyes fához használt betanításadatok töredékének tartományát
Jellemzőtöredék tartománya ParameterRangeSettings [0.25;1.0] mode:Paramétertartomány 0.25; 0.5; 0.75 Megadja az egyes fához használt jellemzők (véletlenszerűen kiválasztott) hányadosának tartományát
Felosztási tört tartománya ParameterRangeSettings [0.25;1.0] mode:Paramétertartomány 0.25; 0.5; 0.75 Meghatározza az egyes felosztások jellemzőinek törtrészét (véletlenszerűen kiválasztva)
A kvantilisek becsléséhez használt minták száma Egész szám mode:Paramétertartomány 100 A kvantilisek becsléséhez használt minták száma
Kötelező kvantilisértékek Sztring mode:Paramétertartomány "0.25;0.5;0.75" Kötelező kvantilisérték a paraméteres lekérdezés során

Kimenetek

Név Típus Description
Nem korlátozott modell ILearner interfész Nem betanított kvantilises regressziós modell, amely az Általános modell betanítása vagy a Modell keresztvalyikálása modulhoz csatlakoztatható.

Lásd még

Regresszió