2. oktatóanyag: Hitelkockázati modellek betanítása – Machine Learning Studio (klasszikus)
ÉRVÉNYES: Machine Learning Studio (klasszikus)
Azure Machine Learning
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- A gépi tanulási projektek ml studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről szóló információk.
- További információ az Azure Machine Learningről
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ebben az oktatóanyagban egy prediktív elemzési megoldás fejlesztésének folyamatát tekintheti át. Egy egyszerű modellt fejleszt a Machine Learning Studióban (klasszikus). Ezután gépi tanulási webszolgáltatásként helyezi üzembe a modellt. Ez az üzembe helyezett modell új adatokkal tud előrejelzéseket készíteni. Ez az oktatóanyag egy háromrészes oktatóanyag-sorozat második része.
Tegyük fel, hogy előrejelzést kell készíteni egy személy hitelkockázatáról az általa kitöltött hitelkérelemben megadott adatok alapján.
A hitelkockázat-felmérés összetett probléma, de ez az oktatóanyag egy kicsit leegyszerűsíti. Példaként fogjuk használni, hogyan hozhat létre prediktív elemzési megoldást a Machine Learning Studióval (klasszikus). Ehhez a megoldáshoz a Machine Learning Studiót (klasszikus) és egy Machine Learning-webszolgáltatást fog használni.
Ebben a háromrészes oktatóanyagban a nyilvánosan elérhető hitelkockázati adatokkal fog kezdeni. Ezután egy prediktív modellt fejleszthet és taníthat be. Végül webszolgáltatásként helyezi üzembe a modellt.
Az oktatóanyag első részében létrehozott egy (klasszikus) Machine Learning Studio-munkaterületet, feltöltötte az adatokat, és létrehozott egy kísérletet.
Az oktatóanyag ezen részében a következőket fogja elkönyvelni:
- Több modell betanítása
- A modellek pontozása és kiértékelése
Az oktatóanyag harmadik részében webszolgáltatásként fogja üzembe helyezni a modellt.
Előfeltételek
Végezze el az oktatóanyag első részét.
Több modell betanítása
A Machine Learning Studio (klasszikus) gépi tanulási modellek létrehozására való használatának egyik előnye, hogy egyszerre több modelltípust is kipróbálhat egyetlen kísérletben, és összehasonlíthatja az eredményeket. Ez a fajta kísérletezés segít megtalálni a legjobb megoldást a problémára.
Az oktatóanyagban fejlesztett kísérletben két különböző típusú modellt fog létrehozni, majd összehasonlítja a pontozási eredményeket, hogy eldöntse, melyik algoritmust szeretné használni a végső kísérletben.
Különböző modellek közül választhat. Az elérhető modellek megtekintéséhez bontsa ki a Machine Learning-csomópontot a modulpalettán, majd bontsa ki a Modell inicializálása és az alatta lévő csomópontok csomópontjait. Ebben a kísérletben kiválasztja a kétosztályos támogató vektorgépet (SVM) és a kétosztályos kiemelt döntési fa modulokat.
Ebben a kísérletben a kétosztályos kiemelt döntési fa modult és a kétosztályos támogatási vektorgép modult is hozzáadja.
Kétosztályos súlyozott döntési fa
Először állítsa be a megnövelt döntési famodellt.
Keresse meg a kétosztályos kiemelt döntési fa modult a modulpalettán, és húzza a vászonra.
Keresse meg a Modell betanítása modult, húzza a vászonra, majd csatlakoztassa a Kétosztályos kiemelt döntési fa modul kimenetét a Modell betanítása modul bal oldali bemeneti portjához.
A kétosztályos kiemelt döntési fa modul inicializálja az általános modellt, a Betanítási modell pedig betanítási adatokat használ a modell betanításához.
Csatlakoztassa a bal oldali Execute R Script modul bal oldali kimenetét a Modell betanítása modul jobb oldali bemeneti portjához (ebben az oktatóanyagban a Split Data modul bal oldaláról érkező adatokat használta betanításhoz).
Tipp
Ehhez a kísérlethez nincs szükség két bemenetre és az Execute R Script modul egyik kimenetére, így azok nem lesznek elérhetőek.
A kísérlet ezen része a következőképpen néz ki:
Most meg kell mondania a Modell betanítása modulnak, hogy a modell előrejelzi a hitelkockázat értékét.
Válassza a Modell betanítása modult. A Tulajdonságok panelen kattintson az Oszlopkijelölő indítása elemre.
Az Egyetlen oszlop kijelölése párbeszédpanelen írja be a "hitelkockázat" kifejezést az Elérhető oszlopok keresőmezőbe, válassza a lenti "Hitelkockázat" lehetőséget, majd a jobb nyílra (>) kattintva helyezze át a "Hitelkockázat" elemet a kijelölt oszlopokba.
Kattintson az OK pipára .
Kétosztályos támogató vektorgép
Ezután állítsa be az SVM-modellt.
Először is, egy kis magyarázat az SVM-ről. A megnövelt döntési fák bármilyen típusú jellemzőkkel jól működnek. Mivel azonban az SVM-modul lineáris osztályozót hoz létre, az általa létrehozott modell a legjobb teszthibával rendelkezik, ha minden numerikus jellemző azonos skálával rendelkezik. Ha az összes numerikus jellemzőt ugyanarra a skálára szeretné konvertálni, a "Tanh" átalakítást kell használnia (az Adatok normalizálása modullal). Ez átalakítja a számokat a [0,1] tartományba. Az SVM-modul a sztringszolgáltatásokat kategorikus, majd bináris 0/1 funkciókká alakítja, így nem kell manuálisan átalakítania a sztringszolgáltatásokat. Emellett nem szeretné átalakítani a Hitelkockázat oszlopot (21. oszlop) – ez numerikus, de ez az az érték, amelyet a modell előrejelzéséhez betanítunk, ezért hagyja békén.
Az SVM-modell beállításához tegye a következőket:
Keresse meg a kétosztályos támogatási vektorgép modult a modulpalettán, és húzza a vászonra.
Kattintson a jobb gombbal a Modell betanítása modulra, válassza a Másolás parancsot, majd kattintson a jobb gombbal a vászonra, és válassza a Beillesztés parancsot. A Modell betanítása modul másolata ugyanazzal az oszlopkiválasztással rendelkezik, mint az eredeti.
Csatlakoztassa a kétosztályos támogatási vektorgép modul kimenetét a második Modell betanítása modul bal oldali bemeneti portjához.
Keresse meg a Normalize Data modult , és húzza a vászonra.
Csatlakoztassa a bal oldali Execute R Script modul bal oldali kimenetét a modul bemenetéhez (figyelje meg, hogy egy modul kimeneti portja több modulhoz is kapcsolódhat).
Csatlakoztassa a Normalize Data modul bal oldali kimeneti portját a második Modell betanítása modul jobb oldali bemeneti portjához.
A kísérlet ezen részének most a következőképpen kell kinéznie:
Most konfigurálja az Adatok normalizálása modult :
Kattintson ide az Adatok normalizálása modul kiválasztásához. A Tulajdonságok panelen válassza a Tanh elemet az Átalakítási módszer paraméterhez.
Kattintson a Launch column selector (Oszlop indítása) gombra, válassza a "Nincs oszlop" lehetőséget a Kezdéshez, válassza a Belefoglalás lehetőséget az első legördülő menübe, válassza ki az oszloptípust a második legördülő menüben, majd válassza a Numerikus lehetőséget a harmadik legördülő menüben. Ez azt határozza meg, hogy az összes numerikus oszlop (és csak numerikus) át lesz alakítva.
Kattintson a sortól jobbra található pluszjelre (+) – ez létrehoz egy legördülő sort. Válassza a Kizárás lehetőséget az első legördülő menüben, válassza ki az oszlopneveket a második legördülő menüben, és írja be a "Hitelkockázat" kifejezést a szövegmezőbe. Ez azt határozza meg, hogy a Hitelkockázat oszlopot figyelmen kívül kell hagyni (ezt azért kell megtennie, mert ez az oszlop numerikus, és így módosulna, ha nem zárja ki).
Kattintson az OK pipára .
Az Adatok normalizálása modul most úgy van beállítva, hogy a Hitelkockázat oszlop kivételével minden numerikus oszlopon tanh-átalakítást hajtson végre.
A modellek pontozása és kiértékelése
A betanított modellek pontozásához a Split Data modul által elválasztott tesztelési adatokat használja. ezután összehasonlíthatja a két modell eredményeit, hogy lássa, melyik hozott jobb eredményeket.
A Modell pontozása modul hozzáadása
Keresse meg a Score Model modult, és húzza a vászonra.
Csatlakoztassa a Modell betanítása modult, amely a Kétosztályos kiemelt döntési fa modulhoz csatlakozik a Modell pontozása modul bal oldali bemeneti portjához.
Csatlakoztassa a megfelelő Execute R Script modult (a tesztelési adatokat) a Modell pontozása modul megfelelő bemeneti portjához.
A Score Model (Pontozási modell ) modul most már képes átvenni a hitelinformációkat a tesztelési adatokból, végigfuttathatja a modellen, és összehasonlíthatja a modell által generált előrejelzéseket a tesztelési adatok tényleges hitelkockázati oszlopával.
Másolja és illessze be a Modell pontozása modult egy második példány létrehozásához.
Csatlakoztassa az SVM-modell kimenetét (azaz a Modell betanítása modul kimeneti portját, amely a kétosztályos támogatási vektorgép-modulhoz csatlakozik) a második Pontozási modell modul bemeneti portjához.
Az SVM-modell esetében ugyanazt az átalakítást kell elvégeznie a tesztadatokon, mint a betanítási adatokon. Másolja és illessze be az Adatok normalizálása modult, hogy létrehozhasson egy második példányt, és csatlakoztassa a megfelelő Execute R Script modulhoz.
Csatlakoztassa a második Normalize Data modul bal oldali kimenetét a második Modell pontozása modul jobb oldali bemeneti portjához.
A Modell kiértékelése modul hozzáadása
A két pontozási eredmény kiértékeléséhez és összehasonlításához egy Modell kiértékelése modult kell használnia.
Keresse meg a Modell kiértékelése modult, és húzza a vászonra.
Csatlakoztassa a kiemelt döntési famodellhez társított Score Model modul kimeneti portját a Modell kiértékelése modul bal oldali bemeneti portjához.
Csatlakoztassa a másik Score Model modult a megfelelő bemeneti porthoz.
Futtassa a kísérletet, és ellenőrizze az eredményeket
A kísérlet futtatásához kattintson a vászon alatti FUTTATÁS gombra. Ennek futtatása eltarthat néhány percig. Az egyes modulokon egy forgó jelölő jelzi, hogy fut, majd egy zöld pipa jelzi, hogy mikor fejeződött be a modul. Ha minden modul rendelkezik pipával, a kísérlet befejeződött.
A kísérletnek így kell kinéznie:
Az eredmények ellenőrzéséhez kattintson a Modell kiértékelése modul kimeneti portjára, és válassza a Vizualizáció lehetőséget.
A Modell kiértékelése modul görbék és metrikák párját állítja elő, amelyek lehetővé teszik a két pontozott modell eredményeinek összehasonlítását. Az eredményeket megtekintheti fogadó operátori jellemző (ROC) görbékként, pontossági/visszahívási görbékként vagy emelési görbékként. További megjelenített adatok közé tartozik a keveredési mátrix, a görbe alatti terület halmozott értékei (AUC) és egyéb metrikák. A küszöbértéket úgy módosíthatja, hogy balra vagy jobbra mozgatja a csúszkát, és megnézi, hogyan befolyásolja a metrikák készletét.
A diagram jobb oldalán kattintson a Pontozott adathalmaz vagy a Pontozott adathalmaz elemre a kapcsolódó görbe kiemeléséhez és az alábbi metrikák megjelenítéséhez. A görbék jelmagyarázatában a "Pontozott adatkészlet" a Modell kiértékelése modul bal oldali bemeneti portjának felel meg – ebben az esetben ez a megnövelt döntési famodell. Az "összehasonlítandó pontozott adatkészlet" a megfelelő bemeneti portnak felel meg – ebben az esetben az SVM-modellnek. Amikor ezekre a címkékre kattint, a modell görbéje ki van emelve, és megjelennek a megfelelő metrikák, az alábbi ábrán látható módon.
Ezeknek az értékeknek a vizsgálatával eldöntheti, hogy melyik modell a legközelebb áll a keresett eredményekhez. Visszatérhet a kísérlethez, és iterálhat a különböző modellek paraméterértékeinek módosításával.
Az eredmények értelmezésének és a modell teljesítményének finomhangolásának tudománya és művészete kívül esik az oktatóanyag hatókörén. További segítségért olvassa el a következő cikkeket:
- Modellteljesítmény kiértékelése a Machine Learning Studióban (klasszikus)
- Paraméterek kiválasztása az algoritmusok optimalizálásához a Machine Learning Studióban (klasszikus)
- Modelleredmények értelmezése a Machine Learning Studióban (klasszikus)
Tipp
A kísérlet minden futtatásakor az iteráció rekordja a futtatási előzmények között marad. Ezeket az iterációkat megtekintheti, és bármelyikre visszatérhet, ha a vásznon a FUTTATÁSI ELŐZMÉNYEK MEGTEKINTÉSE gombra kattint. A TulajdonságokpanelEn a Korábbi futtatás elemre kattintva visszatérhet a közvetlenül a megnyitott iterációhoz.
A kísérlet iterációiról másolatot készíthet a vászon alatti MENTÉS MÁSKÉNT gombra kattintva. A kísérlet összegzési és leírási tulajdonságaival rögzítheti, hogy mit próbált meg a kísérlet iterációiban.
További információ: Kísérlet-iterációk kezelése a Machine Learning Studióban (klasszikus)
Az erőforrások eltávolítása
Ha már nincs szüksége a cikkben létrehozott erőforrásokra, törölje őket, hogy elkerülje a költségek felmerülését. Ebből a cikkből megtudhatja, hogyan exportálhatja és törölheti a terméken belüli felhasználói adatokat.
Következő lépések
Ebben az oktatóanyagban az alábbi lépéseket hajtotta végre:
- Kísérlet létrehozása
- Több modell betanítása
- A modellek pontozása és kiértékelése
Most már készen áll az adatok modelljeinek üzembe helyezésére.