2. oktatóanyag: Hitelkockázati modellek betanítása – Machine Learning Studio (klasszikus)

Cikk
02/11/2019

A KÖVETKEZŐKRE VONATKOZIK: Ez egy pipa, ami azt jelenti, hogy ez a cikk a Machine Learning Studióra (klasszikus) vonatkozik. Machine Learning Studio (klasszikus) Ez egy X, ami azt jelenti, hogy ez a cikk nem vonatkozik az Azure Machine Learningre. Azure Machine Learning

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről szóló információk.
További információ az Azure Machine Learningről

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ebben az oktatóanyagban részletes áttekintést nyújt a prediktív elemzési megoldások fejlesztésének folyamatáról. Egy egyszerű modellt fejleszthet a Machine Learning Studióban (klasszikus). Ezután gépi tanulási webszolgáltatásként kell üzembe helyeznie a modellt. Ez az üzembe helyezett modell új adatokkal tud előrejelzéseket készíteni. Ez az oktatóanyag egy háromrészes oktatóanyag-sorozat második része.

Tegyük fel, hogy előrejelzést kell készíteni egy személy hitelkockázatáról az általa kitöltött hitelkérelemben megadott adatok alapján.

A hitelkockázat-felmérés összetett probléma, de ez az oktatóanyag egy kicsit leegyszerűsíti. Példaként fogja használni, hogyan hozhat létre prediktív elemzési megoldást a Machine Learning Studióval (klasszikus). Ehhez a megoldáshoz a Machine Learning Studio (klasszikus) és a Machine Learning webszolgáltatást fogja használni.

Ebben a háromrészes oktatóanyagban a nyilvánosan elérhető hitelkockázati adatokkal kezd. Ezután fejleszthet és taníthat be egy prediktív modellt. Végül webszolgáltatásként helyezi üzembe a modellt.

Az oktatóanyag első részében létrehozott egy Machine Learning Studio-munkaterületet (klasszikus), feltöltött adatokat, és létrehozott egy kísérletet.

Az oktatóanyag jelen részében a következőket fogja elkönyvelni:

Több modell betanítása
A modellek pontszáma és kiértékelése

Az oktatóanyag harmadik részében webszolgáltatásként fogja üzembe helyezni a modellt.

Előfeltételek

Végezze el az oktatóanyag első részét.

Több modell betanítása

A Machine Learning Studio (klasszikus) gépi tanulási modellek létrehozásának egyik előnye, hogy egyszerre több modellt is kipróbálhat egyetlen kísérletben, és összehasonlíthatja az eredményeket. Ez a fajta kísérletezés segít megtalálni a legjobb megoldást a problémára.

Az oktatóanyagban fejlesztendő kísérletben két különböző modelltípust fog létrehozni, majd összehasonlítja a pontozási eredményeket, hogy eldöntse, melyik algoritmust szeretné használni a végső kísérletben.

Különböző modellek közül választhat. Az elérhető modellek megtekintéséhez bontsa ki a Machine Learning csomópontot a modulpalettán, majd bontsa ki a Modell inicializálása és az alatta lévő csomópontok csomópontjait. A kísérlet céljaira a kétosztályos támogatási vektorgépet (SVM) és a kétosztályos emelt szintű döntési fa modulokat fogja kiválasztani.

Ebben a kísérletben a kétosztályos emelt szintű döntési fa modult és a kétosztályos támogatási vektorgép-modult is hozzáadja.

Kétosztályos súlyozott döntési fa

Először állítsa be a megnövelt döntésifa-modellt.

Keresse meg a kétosztályos emelt szintű döntési fa modult a modulpalettán, és húzza a vászonra.
Keresse meg a Modell betanítása modult, húzza a vászonra, majd csatlakoztassa a Kétosztályos növelt döntési fa modul kimenetét a Modell betanítása modul bal oldali bemeneti portjához.

A kétosztályos emelt szintű döntési fa modul inicializálja az általános modellt, a Betanítási modell pedig betanítási adatokat használ a modell betanításához.
Csatlakoztassa a bal oldali Execute R Script modul bal kimenetét a Betanítási modell modul jobb bemeneti portjához (ebben az oktatóanyagban a Split Data modul bal oldaláról érkező adatokat használta betanításhoz).

Tipp.

Ehhez a kísérlethez nincs szükség két bemenetre és az Execute R Script modul egyik kimenetére, így azok nem lesznek gyorsítótárazva.

A kísérlet ezen része a következőképpen néz ki:

Modell betanítása

Most meg kell mondania a Modell betanítása modulnak, hogy a modell előrejelzi a hitelkockázat értékét.

Válassza a Modell betanítása modult. A Tulajdonságok panelen kattintson a Launch column selector (Oszlop indítása) gombra.
Az Egyetlen oszlop kijelölése párbeszédpanelen írja be a "hitelkockázat" kifejezést az Elérhető oszlopok keresőmezőbe, válassza az alatta lévő "Hitelkockázat" lehetőséget, majd a jobb nyílra (>) kattintva helyezze át a "Hitelkockázat" szöveget a kijelölt oszlopokra.
Kattintson az OK pipára .

Kétosztályos támogató vektorgép

Ezután be kell állítania az SVM-modellt.

Először is, egy kis magyarázat az SVM-ről. A megnövelt döntési fák bármilyen típusú funkcióval jól működnek. Mivel azonban az SVM-modul lineáris osztályozót hoz létre, az általa létrehozott modell a legjobb teszthiba, ha minden numerikus funkció azonos skálával rendelkezik. Ha az összes numerikus funkciót ugyanarra a skálára szeretné konvertálni, "Tanh" átalakítást kell használnia (az Adatok normalizálása modullal). Ez átalakítja a számokat a [0,1] tartományba. Az SVM-modul a sztringszolgáltatásokat kategorikus, majd bináris 0/1 funkciókká alakítja át, így nem kell manuálisan átalakítania a sztringfunkciókat. Emellett nem szeretné átalakítani a Hitelkockázat oszlopot (21. oszlop) – ez numerikus, de ez az az érték, amelyet a modell előrejelzésére tanítunk be, ezért egyedül kell hagynia.

Az SVM-modell beállításához tegye a következőket:

Keresse meg a kétosztályos támogatási vektorgép modult a modulpalettán, és húzza a vászonra.
Kattintson a jobb gombbal a Modell betanítása modulra, válassza a Másolás lehetőséget, majd kattintson a jobb gombbal a vászonra, és válassza a Beillesztés parancsot. A Modell betanítása modul másolata ugyanazzal az oszlopkiválasztással rendelkezik, mint az eredeti.
Csatlakoztassa a kétosztályos támogatási vektorgép modul kimenetét a második Betanított modell modul bal oldali bemeneti portjához.
Keresse meg a Normalize Data modult, és húzza a vászonra.
Csatlakoztassa a bal oldali Execute R Script modul bal kimenetét a modul bemenetéhez (figyelje meg, hogy egy modul kimeneti portja több modulhoz is csatlakoztatható).
Csatlakoztassa a Normalize Data modul bal oldali kimeneti portját a második Betanítási modell modul jobb oldali bemeneti portjához.

A kísérlet ezen részének a következőhöz hasonlóan kell kinéznie:

A második modell betanítása

Most konfigurálja az Adat normalizálása modult:

Kattintson ide az Adatok normalizálása modul kiválasztásához. A Tulajdonságok panelen válassza a Tanh lehetőséget az Átalakítási módszer paraméterhez.
Kattintson a Launch column selector (Oszlop indítása) gombra, válassza a "Nincs oszlop" lehetőséget a Kezdő gombnál, válassza a Belefoglalás lehetőséget az első legördülő menübe, válassza ki az oszloptípust a második legördülő menüben, és válassza a Numerikus lehetőséget a harmadik legördülő listában. Ez azt határozza meg, hogy az összes numerikus oszlop (és csak numerikus) átalakítva legyen.
Kattintson a sortól jobbra található pluszjelre (+) – ez legördülő sorokat hoz létre. Válassza a Kizárás lehetőséget az első legördülő menüben, jelölje ki az oszlopneveket a második legördülő menüben, és írja be a "Hitelkockázat" kifejezést a szövegmezőbe. Ez azt határozza meg, hogy a Hitelkockázat oszlopot figyelmen kívül kell hagyni (ezt azért kell megtennie, mert ez az oszlop numerikus, ezért a rendszer átalakítja, ha nem zárja ki).
Kattintson az OK pipára .

Az Adat normalizálása modul mostantól úgy van beállítva, hogy tanh-átalakítást hajtson végre az összes numerikus oszlopon, kivéve a Hitelkockázat oszlopot.

A modellek pontszáma és kiértékelése

a Split Data modul által elválasztott tesztelési adatokat használja a betanított modellek pontozásához. Ezután összehasonlíthatja a két modell eredményeit, hogy lássa, melyik hozott létre jobb eredményeket.

A Score Model modulok hozzáadása

Keresse meg a Score Model modult, és húzza a vászonra.
Csatlakoztassa a Modell betanítása modult, amely a Kétosztályos növelt döntési fa modulhoz csatlakozik a Score Model modul bal oldali bemeneti portjához.
Csatlakoztassa a megfelelő Execute R Script modult (a tesztelési adatokat) a Score Model modul megfelelő bemeneti portjához.

A Pontszámmodell modul mostantól a tesztelési adatokból átveheti a kreditadatokat, futtathatja a modellt, és összehasonlíthatja a modell által generált előrejelzéseket a tesztelési adatok tényleges hitelkockázati oszlopával.
Másolja és illessze be a Score Model modult egy második példány létrehozásához.
Csatlakoztassa az SVM-modell kimenetét (azaz a Kétosztályos támogatási vektorgép modulhoz csatlakoztatott Modell betanítása modul kimeneti portját) a második Pontszámmodell modul bemeneti portjához.
Az SVM-modell esetében ugyanazt az átalakítást kell elvégeznie a tesztelési adatokon, mint a betanítási adatokon. Másolja és illessze be a Normalize Data modult egy második példány létrehozásához, és csatlakoztassa a megfelelő Execute R Script modulhoz.
Csatlakoztassa a második Normalize Data modul bal oldali kimenetét a második Score Model modul jobb bemeneti portjához.

A Modell kiértékelése modul hozzáadása

A két pontozási eredmény kiértékeléséhez és összehasonlításához egy Modell kiértékelése modult kell használnia.

Keresse meg a Modell kiértékelése modult, és húzza a vászonra.
Csatlakoztassa a kiemelt döntési famodellhez társított Score Model modul kimeneti portját a Modell kiértékelése modul bal oldali bemeneti portjához.
Csatlakoztassa a másik Score Model modult a megfelelő bemeneti porthoz.

A kísérlet futtatása és az eredmények ellenőrzése

A kísérlet futtatásához kattintson a vászon alatti FUTTATÁS gombra. Ez eltarthat néhány percig. Az egyes modulokon forgó jelző jelzi, hogy fut, majd egy zöld pipa jelzi, hogy mikor fejeződött be a modul. Ha az összes modul rendelkezik pipával, a kísérlet befejeződött.

A kísérletnek így kell kinéznie:

Mindkét modell kiértékelése

Az eredmények ellenőrzéséhez kattintson a Modell kiértékelése modul kimeneti portjára, és válassza a Vizualizáció lehetőséget.

A Modell kiértékelése modul olyan görbéket és metrikákat hoz létre, amelyek lehetővé teszik a két pontozott modell eredményeinek összehasonlítását. Az eredményeket a Receiver Operator Characteristic (ROC) görbék, a pontossági/visszahívási görbék vagy a Lift görbékként tekintheti meg. A további megjelenített adatok közé tartozik egy keveredési mátrix, a görbe alatti terület összesített értékei (AUC) és egyéb metrikák. A küszöbértéket a csúszka balra vagy jobbra mozgatásával módosíthatja, és megtekintheti, hogy ez hogyan befolyásolja a metrikák készletét.

A diagram jobb oldalán kattintson a Pontozott adathalmaz vagy a Pontozott adathalmaz elemre a kapcsolódó görbe kiemeléséhez és az alábbi metrikák megjelenítéséhez. A görbék jelmagyarázatában a "Scored dataset" a Modell kiértékelése modul bal oldali bemeneti portjának felel meg – esetünkben ez a megnövelt döntésifa-modell. Az "összehasonlítandó pontozott adatkészlet" a megfelelő bemeneti portnak felel meg – esetünkben az SVM-modellnek. Amikor az egyik címkére kattint, a modell görbéje ki lesz emelve, és megjelennek a megfelelő metrikák, ahogy az alábbi ábrán látható.

ROC-görbék modellekhez

Az értékek vizsgálatával eldöntheti, hogy melyik modell áll legközelebb a keresett eredmények megadásához. Visszatérhet a kísérlethez, és iterálhat a különböző modellek paraméterértékeinek módosításával.

Az eredmények értelmezésének és a modell teljesítményének finomhangolásának tudománya és művészete kívül esik az oktatóanyag hatókörén. További segítségért olvassa el a következő cikkeket:

Tipp.

Minden alkalommal, amikor futtatja a kísérletet, az iteráció rekordja a futtatási előzmények között marad. Ezeket az iterációkat megtekintheti, és bármelyikre visszatérhet, ha a vásznon a FUTTATÁSI ELŐZMÉNYEK MEGTEKINTÉSE gombra kattint. A Tulajdonságok panelen az Előzetes futtatás gombra kattintva visszatérhet a megnyitott iterációhoz.

A kísérlet iterációiról másolatot készíthet a vászon alatti MENTÉS MÁSKÉNT gombra kattintva. A kísérlet összegzési és leírási tulajdonságaival rögzítheti, hogy mit próbált meg a kísérlet iterációiban.

További információ: Kísérlet iterációk kezelése a Machine Learning Studióban (klasszikus)

Az erőforrások eltávolítása

Ha már nincs szüksége a cikk használatával létrehozott erőforrásokra, törölje őket, hogy elkerülje a díjak felmerülését. Ebből a cikkből megtudhatja, hogyan exportálhatja és törölheti a terméken belüli felhasználói adatokat.

Következő lépések

Ebben az oktatóanyagban az alábbi lépéseket hajtotta végre:

Kísérlet létrehozása
Több modell betanítása
A modellek pontszáma és kiértékelése

Most már készen áll az adatok modelljeinek üzembe helyezésére.

3. oktatóanyag – Modellek üzembe helyezése

Megosztás a következőn keresztül: