Paraméterek kiválasztása az algoritmusok optimalizálásához a Machine Learning Studióban (klasszikus)
ÉRVÉNYES: Machine Learning Studio (klasszikus) Azure Machine Learning
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről szóló információk.
- További információ az Azure Machine Learningről
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a témakör azt ismerteti, hogyan választhatja ki a megfelelő hiperparaméter-készletet egy algoritmushoz a Machine Learning Studióban (klasszikus). A gépi tanulási algoritmusok többsége rendelkezik beállítandó paraméterekkel. Modell betanításakor meg kell adnia az adott paraméterek értékeit. A betanított modell hatékonysága a választott modellparamétertől függ. Az optimális paraméterkészlet megkeresésének folyamatát modellválasztásnak nevezzük.
A modell kiválasztásának különböző módjai vannak. A gépi tanulásban a keresztérvényesítés az egyik leggyakrabban használt módszer a modell kiválasztására, és ez a Machine Learning Studio (klasszikus) alapértelmezett modellkijelölési mechanizmusa. Mivel a Machine Learning Studio (klasszikus) támogatja az R-t és a Pythont is, az R vagy Python használatával mindig implementálhatja saját modellkiválasztási mechanizmusait.
A legjobb paraméterkészlet megtalálásának négy lépése van:
- Adja meg a paraméterteret: Az algoritmus számára először döntse el, hogy pontosan milyen paraméterértékeket szeretne figyelembe venni.
- Adja meg a keresztérvényesítési beállításokat: Döntse el, hogyan válassza ki az adathalmaz keresztérvényesítési redőit.
- Határozza meg a metrikát: Döntse el, hogy milyen metrikát használjon a legjobb paraméterek meghatározásához, például pontosság, gyökér középérték négyzetes hiba, pontosság, visszahívás vagy f-pontszám.
- Betanítása, kiértékelése és összehasonlítása: A paraméterértékek minden egyes egyedi kombinációjához a keresztérvényesítést a megadott hibametrika végzi el. Az értékelés és az összehasonlítás után kiválaszthatja a legjobban teljesítő modellt.
Az alábbi kép bemutatja, hogyan érhető el ez a Machine Learning Studióban (klasszikus).
A paramétertér definiálása
A paraméterkészletet a modell inicializálási lépésében határozhatja meg. Az összes gépi tanulási algoritmus paraméterpanelje két kiképző móddal rendelkezik: egyetlen paraméter és paramétertartomány. Válassza a Paramétertartomány módot. Paramétertartomány módban minden paraméterhez több értéket is megadhat. A szövegmezőbe vesszővel tagolt értékeket írhat be.
Másik lehetőségként megadhatja a rács maximális és minimális pontjait, valamint a Tartományszerkesztővel létrehozandó pontok teljes számát. Alapértelmezés szerint a paraméterértékek lineáris skálán jönnek létre. Ha azonban a Naplóméretezés jelölőnégyzet be van jelölve, az értékek a naplóméretben jönnek létre (azaz a szomszédos pontok aránya állandó a különbség helyett). Egész számparaméterek esetén kötőjel használatával definiálhat tartományt. Az "1-10" például azt jelenti, hogy a paraméterkészletet az 1 és 10 közötti egész számok alkotják . A vegyes mód is támogatott. Az "1-10, 20, 50" paraméterkészlet például 1-10, 20 és 50 egész számokat tartalmaz.
Keresztérvényesítési redők definiálása
A Partíció és a Minta modul segítségével véletlenszerűen rendelhet redőket az adatokhoz. A modul alábbi mintakonfigurációjában öt hajtást határozunk meg, és véletlenszerűen rendelünk hozzá egy foldszámot a mintapéldányokhoz.
A metrika meghatározása
A Modell hiperparaméterek finomhangolása modul támogatást nyújt az adott algoritmus és adatkészlet legjobb paraméterkészletének empirikus kiválasztásához. A modell betanításával kapcsolatos egyéb információk mellett a modul Tulajdonságok panelje tartalmazza a legjobb paraméterkészlet meghatározására szolgáló metrikát. Két különböző legördülő listával rendelkezik a besorolási és regressziós algoritmusokhoz. Ha a vizsgált algoritmus besorolási algoritmus, a regressziós metrika figyelmen kívül lesz hagyva, és fordítva. Ebben a konkrét példában a metrika a Pontosság.
Betanítása, kiértékelése és összehasonlítása
Ugyanaz a Modellparaméterek hangolása modul betanít minden modellt, amely megfelel a paraméterkészletnek, kiértékeli a különböző metrikákat, majd létrehozza a legjobban betanított modellt a választott metrika alapján. Ez a modul két kötelező bemenettel rendelkezik:
- A nem betanított tanuló
- Az adatkészlet
A modul opcionális adatkészlet-bemenettel is rendelkezik. Csatlakoztassa az adathalmazt összecsukható adatokkal a kötelező adathalmaz-bemenethez. Ha az adathalmazhoz nincs összecsukható információ hozzárendelve, a rendszer alapértelmezés szerint automatikusan végrehajt egy 10-szeres keresztérvényesítést. Ha az összecsukható hozzárendelés nem történik meg, és az opcionális adathalmaz-porton érvényesítési adatkészletet ad meg, a rendszer kiválaszt egy betanító-tesztelési módot, és az első adatkészletet használja a modell betanítása az egyes paraméterkombinációkhoz.
A modell kiértékelése ezután az érvényesítési adatkészleten történik. A modul bal oldali kimeneti portja a paraméterértékek függvényeként különböző metrikákat jelenít meg. A megfelelő kimeneti port a betanított modellt adja meg, amely a legjobban teljesítő modellnek felel meg a választott metrika szerint (ebben az esetben pontosság ).
A kiválasztott pontos paramétereket a megfelelő kimeneti port megjelenítésével tekintheti meg. Ez a modell használható tesztkészletek pontozására vagy egy működőképes webszolgáltatásban, miután betanított modellként mentette.