Modell teljesítményének kiértékelése a Machine Learning Studióban (klasszikus)

Cikk
03/20/2017

HATÓKÖR: Érvényes. A Machine Learning Studio (klasszikus) nem vonatkozik gombra. Azure Machine Learning

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A gépi tanulási projektek ml studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről szóló információk.
További információ az Azure Machine Learningről

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ebben a cikkben megismerheti a modell teljesítményének monitorozására használható metrikákat a Machine Learning Studióban (klasszikus). A modell teljesítményének értékelése az adatelemzési folyamat egyik alapvető szakasza. Azt jelzi, hogy egy adathalmaz pontozása (előrejelzései) mennyire voltak sikeresek egy betanított modellben. A Machine Learning Studio (klasszikus) két fő gépi tanulási moduljával támogatja a modellek kiértékelését:

Ezek a modulok lehetővé teszik a modell teljesítményének megtekintését a gépi tanulásban és a statisztikákban gyakran használt metrikák tekintetében.

A modellek kiértékelését a következőkkel együtt kell mérlegelni:

Három gyakori felügyelt tanulási forgatókönyvet mutatunk be:

Regresszió
bináris besorolás
többosztályos besorolás

Kiértékelés és keresztérvényesítés

A kiértékelés és a keresztérvényesítés szabványos módszer a modell teljesítményének mérésére. Mindkettő olyan kiértékelési metrikákat hoz létre, amelyeket megvizsgálhat vagy összehasonlíthat más modellekéivel.

Az Evaluate Model egy pontozott adatkészletet vár bemenetként (vagy kettő, ha két különböző modell teljesítményét szeretné összehasonlítani). Ezért az eredmények kiértékelése előtt be kell tanítania a modellt a Modell betanítása modullal, és előrejelzéseket kell készítenie néhány adathalmazról a Modell pontozása modul használatával. A kiértékelés a pontozott címkéken/valószínűségeken és a valódi címkéken alapul, amelyek mindegyike a Modell pontozása modul kimenete.

Másik lehetőségként keresztellenőrzéssel automatikusan végrehajthat néhány betanított pontszám-kiértékelési műveletet (10 hajtást) a bemeneti adatok különböző részhalmazán. A bemeneti adatok 10 részre vannak felosztva, ahol az egyik tesztelésre, a másik 9 pedig betanításra van fenntartva. Ez a folyamat 10-szer ismétlődik, és a kiértékelési metrikák átlaga. Ez segít annak meghatározásában, hogy egy modell mennyire általánosítana az új adathalmazokra. A Modell keresztellenőrzése modul egy nem betanított modellt és néhány címkézett adatkészletet vesz fel, és az átlagolt eredmények mellett minden 10 hajtás kiértékelési eredményeit adja ki.

A következő szakaszokban egyszerű regressziós és besorolási modelleket hozunk létre, és kiértékeljük a teljesítményüket a Modell kiértékelése és a Modell keresztellenőrzése modul használatával.

Regressziós modell kiértékelése

Tegyük fel, hogy egy autó árát olyan jellemzőkkel szeretnénk előrejelezni, mint a méretek, a lóerő, a motor specifikációi stb. Ez egy tipikus regressziós probléma, ahol a célváltozó (ár) egy folyamatos numerikus érték. Olyan lineáris regressziós modellt illeszthetünk be, amely egy adott autó jellemzőértékei alapján előrejelezheti az adott autó árát. Ez a regressziós modell használható a betanított adathalmaz pontozására. Miután megvan az előrejelzett autóárak, kiértékelhetjük a modell teljesítményét, ha megnézzük, hogy az előrejelzések mennyiben térnek el az átlagos tényleges áraktól. Ennek szemléltetéséhez a Machine Learning Studio Mentett adathalmazok szakaszában (klasszikus) elérhető Automobile price data (Raw) adatkészletet használjuk.

A kísérlet létrehozása

Adja hozzá a következő modulokat a munkaterülethez a Machine Learning Studióban (klasszikus):

Csatlakoztassa a portokat az 1. ábrán látható módon, és állítsa a Modell betanítása modul Címke oszlopát az árra.

Regressziós modell kiértékelése

1. ábra Regressziós modell kiértékelése.

A kiértékelési eredmények vizsgálata

A kísérlet futtatása után kattintson a Modell kiértékelése modul kimeneti portjára, és válassza a Vizualizáció lehetőséget a kiértékelési eredmények megtekintéséhez. A regressziós modellekhez elérhető értékelési metrikák a következők: Átlagos abszolút hiba, Gyökér középértéke Abszolút hiba, Relatív abszolút hiba, Relatív négyzetes hiba és a meghatározási együttható.

Az itt látható "hiba" kifejezés az előrejelzett érték és a valódi érték közötti különbséget jelöli. Ennek a különbségnek az abszolút értékét vagy négyzetét általában úgy számítjuk ki, hogy az összes példányban rögzítse a hiba teljes nagyságát, mivel az előrejelzett és a valódi érték közötti különbség bizonyos esetekben negatív lehet. A hibametrikák a regressziós modell prediktív teljesítményét mérik az előrejelzései valós értékektől való átlagos eltérése alapján. Az alacsonyabb hibaértékek azt jelentik, hogy a modell pontosabb előrejelzéseket készít. A nulla általános hibametrika azt jelenti, hogy a modell tökéletesen illeszkedik az adatokhoz.

A meghatározási együttható, más néven R négyzetes, szintén szabványos módszer annak mérésére, hogy a modell mennyire illeszkedik az adatokhoz. Ez a modell által magyarázott variációk arányaként értelmezhető. Ebben az esetben a nagyobb arány jobb, ahol az 1 tökéletes illeszkedést jelez.

Lineáris regresszióértékelési metrikák

2. ábra Lineáris regresszióértékelési metrikák.

Keresztérvényesítés használata

Ahogy korábban említettük, a Modell keresztellenőrzése modullal automatikusan végezhet ismétlődő betanításokat, pontozásokat és értékeléseket. Ebben az esetben csak egy adathalmazra, egy nem betanított modellre és egy keresztellenőrzési modellmodulra van szüksége (lásd az alábbi ábrát). A címkeoszlopot árra kell állítania a Modell keresztellenőrzése modul tulajdonságai között.

Regressziós modell kereszt-érvényesítése

3. ábra Regressziós modell kereszt-érvényesítése.

A kísérlet futtatása után a modell keresztellenőrzése modul jobb oldali kimeneti portjára kattintva megvizsgálhatja a kiértékelési eredményeket. Ez részletes áttekintést nyújt az egyes iterációk (hajtások) metrikáiról, valamint az egyes metrikák átlagolt eredményeiről (4. ábra).

Regressziós modell keresztérvényesítési eredményei

4. ábra Regressziós modell keresztérvényesítési eredményei.

Bináris besorolási modell kiértékelése

Bináris besorolási forgatókönyv esetén a célváltozónak csak két lehetséges eredménye lehet: {0, 1} vagy {false, true}, {negatív, pozitív}. Tegyük fel, hogy egy olyan felnőtt alkalmazottakból álló adatkészletet kap, amelynek demográfiai és foglalkoztatási változói vannak, és hogy a rendszer arra kéri, hogy előrejelezze a jövedelemszintet, egy bináris változót {"<=50 K", ">50 K"} értékekkel. Más szóval a negatív osztály azokat az alkalmazottakat jelöli, akik 50 K-nál kevesebbet vagy egyenlőt tesznek évente, a pozitív osztály pedig az összes többi alkalmazottat jelöli. A regressziós forgatókönyvhez hasonlóan betanítunk egy modellt, értékelnénk az adatokat, és kiértékelnénk az eredményeket. Itt a fő különbség a Machine Learning Studio (klasszikus) számításainak és kimeneteinek kiválasztása. A jövedelemszint-előrejelzési forgatókönyv szemléltetéséhez a Felnőtt adatkészlettel létrehozunk egy (klasszikus) Studio-kísérletet, és kiértékeljük egy kétosztályos logisztikai regressziós modell, egy gyakran használt bináris osztályozó teljesítményét.