Modell-hiperparaméterek hangolása
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Paraméteres átvizsgálás végrehajtása a modellen az optimális paraméterbeállítások meghatározásához
Kategória: Machine Learning / Betanítás
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a modell hiperparaméterek hangolása modul a Machine Learning Studióban (klasszikus) egy adott gépi tanulási modell optimális hiperparaméterének meghatározásához. A modul több modellt hoz létre és tesztel különböző beállításkombinációk használatával, és összehasonlítja az összes modell metrikákat a beállítások kombinációjának lekért érdekében.
A paraméter ésa hiperparaméter kifejezés zavaró lehet. A modell paramétereit a Tulajdonságok panelen állíthatja be. Ez a modul alapvetően egy paraméteres átvizsgálást végez a megadott paraméterbeállításokon, és megtanulja a hiperparaméterek optimális készletét, amelyek minden döntési fa, adatkészlet vagy regressziós módszer esetén eltérőek lehetnek. Az optimális konfiguráció megtalálásának folyamatát néha hangolásnak is nevezik.
A modul két módszert támogat a modell optimális beállításainak megkereséséhez:
Integrált betanítás és hangolás: Konfigurálhat egy használható paraméterkészletet, majd hagyja, hogy a modul több kombináción is iteráljon, és mérje a pontosságot, amíg meg nem találja a "legjobb" modellt. A legtöbb tanulói modul esetében kiválaszthatja, hogy mely paramétereket kell módosítani a betanítási folyamat során, és melyeknek kell rögzítettnek maradniuk.
Attól függően, hogy mennyi ideig szeretné futtatni a hangolási folyamatot, dönthet úgy, hogy teljes körűen teszteli az összes kombinációt, vagy lerövidítheti a folyamatot paraméterkombinációk rácsának létrehozásával és a paraméterrács véletlenszerű részkészletének tesztelésével.
Keresztellenőrzés finomhangolással: Ezzel a beállítással felosztja az adatokat néhány összecsukott modellre, majd minden egyes összecsukásnál felépíti és teszteli a modelleket. Ez a módszer biztosítja a legjobb pontosságot, és segíthet az adatkészlet problémáinak keresésében; A betanítás azonban hosszabb időt vesz igénybe.
Mindkét metódus létrehoz egy betanított modellt, amely mentve lesz az újrahasználathoz.
Kapcsolódó feladatok
Ha fürtözési modellt hoz létre, a Fürtözéses fürtszolgáltatás használatával automatikusan meghatározhatja a fürtök és egyéb paraméterek optimális számát.
A finomhangolás előtt alkalmazza a funkcióválasztást a legmagasabb információs értékű oszlopok vagy változók meghatározásához. További információ: Funkcióválasztás.
Modell-hiperparaméterek hangolásának konfigurálása
Egy adott gépi tanulási modell optimális hiperparaméterének elsajátítása általában jelentős kísérletezést igényel. Ez a modul a kezdeti finomhangolási folyamatot és keresztellenőrzést is támogatja a modell pontosságának teszteléséhez:
Modell betanítása paraméteres sikkent használatával
Ez a szakasz egy alapszintű paraméteres átvizsgálás elvégzését ismerteti, amely egy modellt a Modell hiperparaméterek hangolása modullal végez el .
Adja hozzá a Modell hiperparaméterek hangolása modult a kísérlethez a Studióban (klasszikus).
Csatlakozás (iLearner formátumú modell) a bal szélső bemenethez.
Állítsa az Oktatói mód létrehozása paramétertartományt, és a Tartományszerkesztővel adja meg a paraméteres lekérdezésben használni kívánt értéktartományt.
Szinte az összes besorolási és regressziós modul támogatja az integrált paraméteres átvizsgálást. Azok a tanulók, akik nem támogatják a paramétertartomány konfigurálását, csak az elérhető paraméterértékek tesztelhetőek.
Manuálisan is beállíthatja egy vagy több paraméter értékét, majd átfésülheti a fennmaradó paramétereket. Ezzel időt takaríthat meg.
Adja hozzá a betanításhoz használni kívánt adatkészletet, és csatlakoztassa a Modell hiperparaméterek hangolása középső bemenetéhez.
Ha címkézett adatkészlettel rendelkezik, csatlakoztathatja azt a jobb szélső bemeneti porthoz (nem kötelező érvényesítési adatkészlet). Ez lehetővé teszi a pontosság mérését a betanítás és a finomhangolás során.
A Modell hiperparaméterek finomhangolása panelen válassza ki a Paraméteres mód értékét. Ez a beállítás a paraméterek beállítását szabályozza.
- Teljes rács: Ha ezt a lehetőséget választja, a modul a rendszer által előre meghatározott rácson hurkokat hoz létre a különböző kombinációk kipróbálására és a legjobb tanuló azonosítására. Ez a lehetőség olyan esetekben hasznos, amikor nem tudja, hogy melyek a legjobb paraméterbeállítások, és szeretné kipróbálni az értékek összes lehetséges kombinációját.
Emellett csökkentheti a rács méretét, és futtathat egy véletlenszerű rácsesetet . A kutatások kimutatták, hogy ez a módszer ugyanazt az eredményt, de hatékonyabb számítást eredményez.
- Véletlenszerű lekérdezés: Ha ezt a lehetőséget választja, a modul véletlenszerűen kiválasztja a paraméterértékeket egy rendszer által meghatározott tartományon. Meg kell adnia a modul által futtatott futtatások maximális számát. Ez a lehetőség olyan esetekben hasznos, amikor növelni szeretné a modell teljesítményét a választott metrikák használatával, de továbbra is számítási erőforrásokat szeretne megőrződni.
A Címke oszlophoz indítsa el az oszlopválasztót egyetlen címkeoszlop kiválasztásához.
Válasszon ki egyetlen metrikát a modellek rangsorolásakor .
Paraméteres keresés futtatásakor a rendszer kiszámítja a modelltípus összes vonatkozó metrikát, és visszaadja a Keresési eredmények jelentésben . A regressziós és besorolási modellekhez külön metrikák használhatók.
A kiválasztott metrika azonban meghatározza a modellek rangsorolásának a mikéntlétét. A pontozáshoz használt betanított modellként csak a legjobb modell lesz a kiválasztott metrika szerint rangsorolva.
Véletlenszerű kezdőérték esetén írjon be egy számot a paraméteres lekérdezés inicializálásakor.
Ha olyan modellt betanít, amely támogatja az integrált paraméteres mintavételt, beállíthatja a használni szükséges kezdőértékek tartományát, és a véletlenszerű halmazokat is iterálhatja. Ez hasznos lehet a kezdőmagok kiválasztásával bevezetett torzítások elkerüléséhez.
Futtassa a kísérletet.
Hiperparaméterek finomhangolásának eredményei
A betanítás befejezésekor:
A legjobb modell pontossági metrikakészletének megtekintéséhez kattintson a jobb gombbal a modulra, válassza a Keresési eredmények, majd a Vizualizáció lehetőséget.
A modelltípusra alkalmazható összes pontossági metrika kimenet, de a rangsoroláshoz kiválasztott metrika határozza meg, hogy melyik modell tekinthető "legjobbnak". A metrikák csak a rangsorolt modellhez jönnek létre.
A "legjobb" modellhez származtatott beállítások megtekintéséhez kattintson a jobb gombbal a modulra, válassza a Betanított legjobb modell lehetőséget, majd kattintson a Vizualizáció elemre. A jelentés paraméterbeállításokat és funkciósúlyokat tartalmaz a bemeneti oszlopokhoz.
Ha a modellt más kísérletek pontozására is használni tudja anélkül, hogy meg kell ismételnie a hangolási folyamatot, kattintson a jobb gombbal a modell kimenetére, és válassza a Mentés betanított modellként lehetőséget.
Keresztellenőrzés végrehajtása paraméteres ellenőrzéssel
Ez a szakasz azt ismerteti, hogyan kombinálható a paraméteres ellenőrzés és a keresztellenőrzés. Ez a folyamat hosszabb időt vesz igénybe, de megadhatja az összecsukott adatok számát, és a lehető legtöbb információt kaphatja meg az adatkészletről és a lehetséges modellekről.
Adja hozzá a Partition (Partíció) és a Sample ( Minta) modult a kísérlethez, és kösse össze a betanítás adatait.
Válassza a Hozzárendelés az összecsukáshoz lehetőséget, és adjon meg néhány összecsukott adatokat, amelyekre felosztja az adatokat. Ha nem ad meg számot, a rendszer alapértelmezés szerint 10-es összecsukásokat használ. A sorok véletlenszerűen vannak felcserélve ezekbe a delegáltakba.
Egy oszlop mintavételezésének kiegyensúlyozása érdekében állítsa a Rétegzett felosztást TRUE (IGAZ) értékre, majd válassza ki a rétegoszlopot. Ha például kiegyensúlyozatlan adatkészlete van, érdemes lehet úgy elosztani az adatkészletet, hogy minden egyes adatáttára azonos számú kisebb esetet kap.
Adja hozzá a kísérlethez a Modell hiperparaméterek hangolása modult.
Csatlakozás kategória egyik gépi tanulási modulját a Modell hiperparaméterek hangolása bal oldali bemenetéhez.
A tanuló Tulajdonságok panelén állítsa az Oktatói mód létrehozása paramétertartományt, és a Tartományszerkesztővel adja meg a paraméteres parancsban használni kívánt értéktartományt.
Nem kell megadnia tartományt az összes értékhez. Egyes paraméterek értékét manuálisan is beállíthatja, majd átfésülheti a fennmaradó paramétereket. Ezzel időt takaríthat meg.
Azon tanulók listáját, akik nem támogatják ezt a lehetőséget, tekintse meg a Műszaki megjegyzések szakaszt .
Csatlakozás Partition (Partíció) és a Sample (Minta) kimenetét a Modell hiperparaméterek hangolása címkével jelölt Betanítás adatkészlet bemenetére.
Szükség esetén egy érvényesítési adatkészletet is csatlakoztathat a Modell hiperparaméterek hangolása jobb szélső bemenetéhez. A keresztvalitkáláshoz csak egy betanítás adatkészletre van szükség.
A Modell hiperparaméterek finomhangolása panelen adja meg, hogy véletlenszerű vagy rácsos sürgetni szeretne-e. A rácseset teljes körű, de időigényesebb. A véletlenszerű paraméteres keresés jó eredményeket kaphat, de nem vesz túl sok időt.
Véletlenszerűen futtatott futtatások maximális száma: Ha véletlenszerű siklásznat választ, a paraméterértékek véletlenszerű kombinációjával megadhatja, hogy a modell hányszor legyen betanítva.
Véletlenszerű rácson való futtatás maximális száma: Ez a beállítás a paraméterértékek véletlenszerű mintavételezése során történő iterációk számát is szabályozza, de az értékek nem jönnek létre véletlenszerűen a megadott tartományból; Ehelyett a rendszer létrehoz egy mátrixot a paraméterértékek összes lehetséges kombinációjából, és véletlenszerű mintavételezést használ a mátrix felett. Ez a módszer hatékonyabb, és kevésbé van kivetve a regionális túl- vagy aláásás-csökkentésnek.
Tipp
A lehetőségek részletes tárgyalását a Műszaki megjegyzések című szakaszban láthatja .
Egyetlen feliratoszlop kiválasztása.
Válasszon ki egyetlen metrikát a modell rangsorolására. Sok metrika van kiszámítva, ezért válassza ki a legfontosabbat az eredmények sorrendjének beállításhoz.
Véletlenszerű kezdőérték esetén írjon be egy számot a paraméteres lekérdezés inicializálásakor.
Ha olyan modellt betanít, amely támogatja az integrált paraméteres mintavételt, beállíthatja a használni szükséges kezdőértékek tartományát, és a véletlenszerű halmazokat is iterálhatja. Ez nem kötelező, de hasznos lehet a kezdő adatok kiválasztásával bevezetett torzítások elkerüléséhez.
Adja hozzá a Cross-Validate Model (Modell kereszt-ellenőrzése) modult. Csatlakozás a Partition (Partíció) és a Sample (Minta) kimenetét az Adatkészlet bemenetéhez, és kösse össze a Modell hiperparaméterek hangolása kimenetét a Nem korlátozott modellbemenettel.
Futtassa a kísérletet.
Keresztvalyenítés eredményei
A keresztvallálás befejezése után:
A kiértékelési eredmények megtekintéséhez kattintson a jobb gombbal a modulra, válassza a Kiértékelési eredmények összecsukva lehetőséget, majd válassza a Vizualizáció lehetőséget.
A pontossági metrikák a keresztellenőrzési passz alapján vannak kiszámítva, és a kiválasztott összecsukott eredményektől függően némileg eltérhetnek.
Ha meg szeretné tudni, hogyan lett elosztva az adatkészlet, és hogy a "legjobb" modell hogyan pontozást adna az adatkészlet egyes sorai közül, kattintson a jobb gombbal a modulra, válassza a Pontozási eredmények lehetőséget, majd válassza a Vizualizáció lehetőséget.
Ha menti ezt az adatkészletet későbbi használatra, az adatátrendelések megmaradnak. A mentett datsaet például így néz ki:
Dedukt hozzárendelések Osztály Age(1st feature column) 2 0 35 1 1 17 3 0 62 A "legjobb" modell paraméterbeállításának lekért értékéhez kattintson a jobb gombbal a Modell hiperparaméterének hangolása elemre.
Példák
A modul használatára vonatkozó példákért lásd a Azure AI Gallery:
Tanulói teljesítmény előrejelzése: A kétosztályos, többosztályos döntési fa algoritmust használja különböző paraméterekkel egy olyan modell létrehozásához, amely a lehető legjobb gyökér-négyzetes hibát (RMSE) használja.
Tanulás a Counts: Binary Classification( Bináris besorolás) használatával: A funkciók kompakt készletét hozza létre számalapú tanulással, majd paraméteres kereséssel megkeresi a legjobb modellparamétereket.
Bináris besorolás: Hálózati behatolásészlelés: A Modell hiperparaméterek hangolása keresztellenőrzési módban, egyéni ötre osztható felosztással használja a kétosztályos logisztikai regressziós modell legjobb hiperparaméterének megkeresése érdekében.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.
A paraméteres lekérdezés működése
Ez a szakasz általánosságban ismerteti a paraméteres átvizsgálás működését, valamint a modulban található lehetőségek működését.
Paraméteres keresés beállításakor meg kell határoznia a keresés hatókörét, hogy véges számú véletlenszerűen kiválasztott paramétert használjon, vagy teljes keresést használjon egy Ön által meghatározott paramétertéren.
Véletlenszerű siklelés: Ez a lehetőség egy adott számú iterációval adja ki a modellt.
Meg kell adnia egy értéktartományt az iterálására, és a modul ezeknek az értékeknek egy véletlenszerűen kiválasztott részkészletét használja. Az értékek helyettesítő értékekkel vannak kiválasztva, ami azt jelenti, hogy a korábban véletlenszerűen kiválasztott számok nem törlődnek az elérhető számok készletből. Így annak az esélye, hogy bármely érték ki legyen választva, ugyanaz marad az összes bérletben.
Rácseset: Ez a beállítás létrehoz egy mátrixot vagy rácsot, amely a paraméterek minden kombinációját tartalmazza a megadott értéktartományban. Amikor elkezdi a hangolást ezzel a modullal, több modellt tanít be ezeknek a paramétereknek a kombinációjával.
Teljes rács: A teljes rács használatának lehetősége éppen ezt jelenti: minden egyes kombinációt tesztelnek. Ez a lehetőség tekinthető a legáthatóbbnak, de a legtöbb időt igényli.
Véletlenszerű rács: Ha ezt a lehetőséget választja, a rendszer kiszámítja az összes kombináció mátrixát, és a megadott iterációk számán keresztül mintát ad a mátrixból az értékekből.
A közelmúltbeli kutatások kimutatták, hogy a véletlenszerű siklák jobb teljesítményre is képesek, mint a rácsos siklák.
A betanítás hosszának és összetettségének szabályozása
A beállítások számos kombinációján keresztüli iteálás időigényes lehet, ezért a modul több módszert is kínál a folyamat korlátozására:
- A modell tesztelésére használt iterációk számának korlátozása
- A paramétertér korlátozása
- Korlátozza az iterációk számértékét és a paraméterterületet
Javasoljuk, hogy kísérletezzen a beállításokkal egy adott adatkészleten és modellen végzett betanítás leghatékonyabb módszerének meghatározásához.
Értékelési metrika kiválasztása
A rendszer az egyes modellek pontosságát tartalmazó jelentést mutat be a végén, így áttekintheti a metrika eredményeit. A rendszer minden besorolási modellhez egységes metrikakészletet, a regressziós modellekhez pedig eltérő metrikakészletet használ. A betanítás során azonban egyetlen metrikát kell választania a hangolási folyamat során létrehozott modellek rangsorolásához. Előfordulhat, hogy a legjobb metrika az üzleti problémától, valamint a téves pozitívak és téves negatívak árától függően változik.
További információ: Modell teljesítményének kiértékelése a Machine Learning
A besoroláshoz használt metrikák
Pontosság A valós eredmények aránya az összes esethez.
Precíziós A valódi eredmények aránya a pozitív eredményekhez.
Visszahív Az összes helyes eredmény hányadosa az összes eredményben.
F-pontszám A pontosságot és az előhívást egyensúlyba egyensúlyba egyen.
AUC Egy érték, amely a görbe alatti területet jelöli, amikor hamis pozitívak vannak ábrázolva az x tengelyen, és a valódi pozitívok az y tengelyen.
Átlagos naplóvesztés Két valószínűségi eloszlás különbsége: a valódi és a modellben.
Naplóvesztés betanítás A modell által a véletlenszerű előrejelzéshez nyújtott javulás.
A regresszióhoz használt metrikák
Átlagos abszolút hiba Átlagot ad a modellben található összes hibára, ahol a hiba az előrejel jelzett érték és a valódi érték távolságát jelenti. Gyakran MAE-ként rövidítve.
A négyzetes átlagos hiba gyöke Megmérték a hibák négyzetének átlagát, majd ennek az értéknek a gyökerét veszi fel. Gyakori rövidítés: RMSE
Relatív abszolút hiba A hibát a valódi érték százalékában jelöli.
Relatív négyzetes hiba Normalizálja a teljes négyzetes hibát úgy, hogy elosztja az előrejelelt értékek teljes négyzetes hibaértékeivel.
A meghatározás együtthatója Egyetlen szám, amely azt jelzi, hogy mennyire illeszkednek jól az adatok a modellbe. Az 1 érték azt jelenti, hogy a modell pontosan megfelel az adatoknak; A 0 érték azt jelenti, hogy az adatok véletlenszerűek vagy egyéb módon nem illeszkednek a modellhez. Ezt gyakran r2-nek, R2-nek vagy r-négyzetnek is nevezik.
Paraméteres lekérdezést nem támogató modulok
A teljes Machine Learning támogatja a keresztellenőrzést egy integrált paraméteres ellenőrzéssel, amellyel kiválaszthatja a kísérletezni szükséges paramétereket. Ha a tanuló nem támogatja egy értéktartomány beállítását, akkor is használhatja keresztellenőrzéshez. Ebben az esetben az engedélyezett értékek egy tartománya van kiválasztva a siklákhoz.
A következő tanulók nem támogatják a paraméteres lekérdezésben használni szükséges értéktartományok beállítását:
Várt bemenetek
Név | Típus | Description |
---|---|---|
Nem korlátozott modell | ILearner interfész | Nem képezett modell paraméteres lekérdezéshez |
Betanítás adatkészlete | Adattábla | Bemeneti adatkészlet betanításhoz |
Érvényesítési adatkészlet | Adattábla | Bemeneti adatkészlet ellenőrzéshez (Betanítás/Tesztelés ellenőrzési módhoz). Ez a bemenet nem kötelező. |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Paraméteres lekérdezési mód megadása | Lista | Siklott módszerek | Véletlenszerű sikl | Teljes rács átfutása a paraméterterületen, vagy siklás korlátozott számú mintafutat használatával |
A véletlenszerűen futtatott futtatások maximális száma | [1;10000] | Egész szám | 5 | Futtatás maximális számának végrehajtása véletlenszerű siklák használatával |
Véletlenszerű mag | bármelyik | Egész szám | 0 | Adja meg a véletlenszám-generátor kezdőértékét |
Felirat oszlop | bármelyik | ColumnSelection (Oszlopválasztás) | Felirat oszlop | |
A besorolás teljesítményének mérésére vonatkozó metrika | Lista | Bináris besorolás metrikatípusa | Pontosság | Válassza ki a besorolási modellek értékeléséhez használt metrikát |
A regresszió teljesítményének mérésére vonatkozó metrika | Lista | Regressziómetriai típus | Átlagos abszolút hiba | A regressziós modellek értékeléséhez használt metrika kiválasztása |
Kimenetek
Név | Típus | Description |
---|---|---|
Keresési eredmények | Adattábla | Eredmények metrika a paraméteres keresések futtatásaihoz |
Betanított legjobb modell | ILearner interfész | Modell a betanítás adatkészletének legjobb teljesítményével |