1. oktatóanyag: Hitelkockázat előrejelzése – Machine Learning Studio (klasszikus)

Cikk
02/11/2019

A KÖVETKEZŐKRE VONATKOZIK: Ez egy pipa, ami azt jelenti, hogy ez a cikk a Machine Learning Studióra (klasszikus) vonatkozik. Machine Learning Studio (klasszikus) Ez egy X, ami azt jelenti, hogy ez a cikk nem vonatkozik az Azure Machine Learningre. Azure Machine Learning

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről szóló információk.
További információ az Azure Machine Learningről

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ebben az oktatóanyagban részletes áttekintést nyújt a prediktív elemzési megoldások fejlesztésének folyamatáról. Egy egyszerű modellt fejleszthet a Machine Learning Studióban (klasszikus). Ezután gépi tanulási webszolgáltatásként kell üzembe helyeznie a modellt. Ez az üzembe helyezett modell új adatokkal tud előrejelzéseket készíteni. Ez az oktatóanyag egy háromrészes oktatóanyag-sorozat első része.

Tegyük fel, hogy előrejelzést kell készíteni egy személy hitelkockázatáról az általa kitöltött hitelkérelemben megadott adatok alapján.

A hitelkockázat-felmérés összetett probléma, de ez az oktatóanyag egy kicsit leegyszerűsíti. Példaként fogja használni, hogyan hozhat létre prediktív elemzési megoldást a Machine Learning Studióval (klasszikus). Ehhez a megoldáshoz az aMachine Learning Studio (klasszikus) és egy Machine Learning webszolgáltatást fog használni.

Ebben a háromrészes oktatóanyagban a nyilvánosan elérhető hitelkockázati adatokkal kezd. Ezután fejleszthet és taníthat be egy prediktív modellt. Végül webszolgáltatásként helyezi üzembe a modellt.

Az oktatóanyag jelen részében a következőket fogja elkönyvelni:

Machine Learning Studio -munkaterület létrehozása (klasszikus)
Meglévő adatok feltöltése
Kísérlet létrehozása

Ezt a kísérletet használhatja a modellek betanítása a 2 . részben, majd üzembe helyezheti őket a 3. részben.

Előfeltételek

Ez az oktatóanyag feltételezi, hogy legalább egyszer már használta a Machine Learning Studiót (klasszikus), és hogy van némi ismerete a gépi tanulási fogalmakról. Az útmutató azonban nem feltételezi, hogy a fent említett területeken szakértő lenne.

Ha még soha nem használta a Machine Learning Studiót (klasszikus), érdemes lehet a rövid útmutatóval kezdeni, amely az első adatelemzési kísérletet a Machine Learning Studióban (klasszikus) hozza létre. A rövid útmutató első alkalommal nyitja meg a Machine Learning Studiót (klasszikus). Bemutatja az alapokat, azt, hogy hogyan húzhat be modulokat a kísérletbe és kapcsolhatja össze azokat, és hogyan futtathatja a kísérletet és tekintheti meg az eredményeket.

Tipp.

Ebben az oktatóanyagban az Azure AI-galériában talál egy működő másolatot a kísérletről. Lépjen az Oktatóanyag – Hitelkockázat előrejelzése elemre, és kattintson a Megnyitás a Studióban elemre a kísérlet másolatának letöltéséhez a Machine Learning Studio (klasszikus) munkaterületére.

Machine Learning Studio -munkaterület létrehozása (klasszikus)

A Machine Learning Studio (klasszikus) használatához a Machine Learning Studio (klasszikus) munkaterületre van szükség. Ez a munkaterület tartalmazza a kísérletek létrehozásához, kezeléséhez és közzétételéhez szükséges eszközöket.

Munkaterület létrehozásához tekintse meg a Machine Learning Studio (klasszikus) munkaterületének létrehozását és megosztását.

A munkaterület létrehozása után nyissa meg a Machine Learning Studiót (klasszikus) (https://studio.azureml.net/Home). Ha több munkaterülete van, az ablak jobb felső sarkában lévő eszköztáron kiválaszthatja a munkaterületet.

Munkaterület kiválasztása a Studióban (klasszikus)

Tipp.

Ha Ön a munkaterület tulajdonosa, megoszthatja a kísérleteket, amelyeken dolgozik, ha meghív másokat a munkaterületre. Ezt a Machine Learning Studióban (klasszikus) a BEÁLLÍTÁSOK lapon teheti meg. Csak a Microsoft-fiókra vagy a szervezeti fiókra van szüksége minden felhasználóhoz.

A BEÁLLÍTÁSOK lapon kattintson a FELHASZNÁLÓK elemre, majd az ablak alján található TOVÁBBI FELHASZNÁLÓK MEGHÍVÁSA parancsra.

Meglévő adatok feltöltése

A hitelkockázat prediktív modelljének fejlesztéséhez olyan adatokra van szüksége, amelyekkel betaníthatja és tesztelheti a modellt. Ebben az oktatóanyagban az UC Irvine Machine Learning-adattár "UCI Statlog (német kreditadatok) adatkészletét" fogja használni. Itt találja:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

A german.data nevű fájlt fogja használni. Töltse le ezt a fájlt a helyi merevlemezre.

A german.data adatkészlet 20 változóból álló sorokat tartalmaz 1000 korábbi kreditre jelentkező esetében. Ez a 20 változó az adathalmaz funkcióit (a jellemzővektort) jelöli, amely azonosítja az egyes hiteligénylők jellemzőit. Minden sorban egy további oszlop jelöli a kérelmező számított hitelkockázatát, 700 kérelmezőt alacsony hitelkockázatként, 300-at pedig magas kockázatként azonosítottak.

Az UCI webhelye ismerteti az adatok jellemzővektorának attribútumait. Ezek az adatok pénzügyi információkat, hitelelőzményeket, foglalkoztatási állapotot és személyes adatokat tartalmaznak. Minden kérelmező esetében bináris minősítést kaptak, amely jelzi, hogy alacsony vagy magas hitelkockázatról van-e szó.

Ezeket az adatokat egy prediktív elemzési modell betanítása érdekében fogja használni. Ha elkészült, a modellnek képesnek kell lennie elfogadni egy új egyéni jellemzővektort, és előre jeleznie kell, hogy alacsony vagy magas hitelkockázatról van-e szó.

Íme egy érdekes csavar.

Az UCI webhelyén található adathalmaz leírása megemlíti, hogy mennyibe kerül, ha egy személy hitelkockázatát nem sorolja be. Ha a modell magas hitelkockázatot jelez előre egy olyan személy számára, aki valójában alacsony hitelkockázat, a modell helytelen besorolást hajtott végre.

A fordított besorolás azonban ötször költségesebb a pénzintézet számára: ha a modell alacsony hitelkockázatot jelez előre egy olyan személy számára, aki valójában magas hitelkockázat.

Ezért be szeretné tanítani a modellt, hogy az utóbbi típusú helytelen besorolás költsége ötször nagyobb legyen, mint a másik besorolás.

Ennek egyik egyszerű módja a modell kísérletben való betanításakor az, ha megkettőzi (ötször) azokat a bejegyzéseket, amelyek magas hitelkockázattal rendelkező személyeket jelölnek.

Ezután, ha a modell helytelenül sorol be valakit alacsony hitelkockázatként, amikor valójában nagy kockázattal jár, a modell ezt a helytelen besorolást ötször végzi el, egyszer minden ismétlődésnél. Ez növeli a hiba költségét a betanítási eredményekben.

Az adathalmaz formátumának konvertálása

Az eredeti adatkészlet üresen elválasztott formátumot használ. A Machine Learning Studio (klasszikus) jobban működik egy vesszővel tagolt ÉRTÉK (CSV) fájllal, így az adathalmazt úgy konvertálja, hogy a szóközöket vesszőkre cseréli.

Az adatok konvertálásának számos módja van. Ennek egyik módja a következő Windows PowerShell-parancs használata:

cat german.data | %{$_ -replace " ",","} | sc german.csv

Egy másik módszer a Unix sed parancs használata:

sed 's/ /,/g' german.data > german.csv

Mindkét esetben létrehozott egy vesszővel tagolt verziót az adatokból egy german.csv nevű fájlban, amelyet használhat a kísérletben.

Az adathalmaz feltöltése a Machine Learning Studióba (klasszikus)

Miután az adatokat CSV formátumra konvertálták, fel kell töltenie a Machine Learning Studióba (klasszikus).

Nyissa meg a Machine Learning Studio (klasszikus) kezdőlapját (https://studio.azureml.net).
Kattintson az ablak bal felső sarkában lévő menüre, kattintson az Azure Machine Learning elemre, válassza a Studio lehetőséget, és jelentkezzen be.
Kattintson az ablak alján található +ÚJ gombra.
Válassza az ADATKÉSZLET lehetőséget.
Válassza a HELYI FÁJL LEHETŐSÉGET.
Az Új adathalmaz feltöltése párbeszédpanelen kattintson a Tallózás gombra, és keresse meg a létrehozott german.csv fájlt.
Adja meg az adathalmaz nevét. Ehhez az oktatóanyaghoz hívja meg az "UCI német hitelkártya-adatokat".
Adattípus esetén válassza az Általános CSV-fájl fejléc nélkül (.nh.csv) lehetőséget.
Adjon meg egy leírást, ha szeretné.
Kattintson az OK pipára .

Ez feltölti az adatokat egy olyan adathalmazmodulba, amelyet egy kísérletben használhat.

A Studióba (klasszikus) feltöltött adathalmazokat a Studio (klasszikus) ablakától balra található DATASETS fülre kattintva kezelheti.

Adatkészletek kezelése

További információ a más típusú adatok kísérletbe való importálásáról: Betanítási adatok importálása a Machine Learning Studióba (klasszikus)

Kísérlet létrehozása

Az oktatóanyag következő lépése egy kísérlet létrehozása a Machine Learning Studióban (klasszikus), amely a feltöltött adathalmazt használja.

A Studióban (klasszikus) kattintson az ablak alján található +ÚJ gombra.
Válassza a KÍSÉRLET lehetőséget, majd az "Üres kísérlet" lehetőséget.
Válassza ki a vászon tetején található alapértelmezett kísérletnevet, és nevezze át valami értelmesre.

Tipp.

A Tulajdonságok panelen célszerű kitölteni a kísérlet összegzését és leírását. Ezek a tulajdonságok lehetővé teszik, hogy dokumentálja a kísérletet, hogy bárki, aki később megvizsgálja, megérthesse céljait és módszertanát.
A kísérletvászontól balra található modulkatalógusban bontsa ki a Mentett adathalmazok elemet.
Keresse meg a Saját adathalmazok területen létrehozott adathalmazt , és húzza a vászonra. Az adathalmazt úgy is megkeresheti, ha a paletta fölötti Keresőmezőbe írja be a nevet.

Az adatok előkészítése

Megtekintheti az adatok első 100 sorát és a teljes adatkészlet statisztikai adatait: Kattintson az adathalmaz kimeneti portjára (az alsó kis körre), és válassza a Vizualizáció lehetőséget.

Mivel az adatfájl nem oszlopfejlécekkel rendelkezik, a Studio (klasszikus) általános címsorokat (Col1, Col2 stb.) adott meg. A jó címsorok nem nélkülözhetetlenek a modell létrehozásához, de megkönnyítik a kísérletben szereplő adatokkal való munkát. Emellett, amikor végül közzéteszi ezt a modellt egy webszolgáltatásban, a címsorok segítenek azonosítani a szolgáltatás felhasználójának az oszlopokat.

Oszlopfejléceket a Metaadatok szerkesztése modullal adhat hozzá.

A Metaadatok szerkesztése modullal módosíthatja az adathalmazhoz társított metaadatokat. Ebben az esetben az oszlopfejlécek felhasználóbarátabb neveinek megadására szolgál.

A metaadatok szerkesztéséhez először meg kell adnia, hogy mely oszlopokat kell módosítani (ebben az esetben az összeset).) Ezután meg kell adnia az oszlopokon végrehajtandó műveletet (ebben az esetben az oszlopfejlécek módosítását).)

A modulkatalógusban írja be a "metaadatok" kifejezést a Keresőmezőbe . A Metaadatok szerkesztése elem megjelenik a modullistában.
Kattintson és húzza a Metaadatok szerkesztése modult a vászonra, és húzza a korábban hozzáadott adathalmaz alá.
Csatlakoztassa az adathalmazt a Metaadatok szerkesztése elemhez: kattintson az adathalmaz kimeneti portjára (az adathalmaz alján található kis körre), húzza a Metaadatok szerkesztése (a modul tetején található kis kör) bemeneti portjára, majd engedje fel az egérgombot. Az adathalmaz és a modul akkor is csatlakoztatva marad, ha a vásznon mozog.

A kísérletnek így kell kinéznie:

A piros felkiáltójel azt jelzi, hogy még nem állította be a modul tulajdonságait. Ezt a következő lépésben teheti meg.

Tipp.

A modulokhoz megjegyzéseket adhat. Ehhez kattintson duplán a kívánt modulra, majd gépelje be a megjegyzés szövegét. Így egyetlen pillantással felmérheti, hogy mire szolgál az adott modul a kísérletben. Ebben az esetben kattintson duplán a Metaadatok szerkesztése modulra, és írja be az "Oszlopfejlécek hozzáadása" megjegyzést. Kattintson a vászon bármely pontjára a szövegdoboz bezárásához. A megjegyzés megjelenítéséhez kattintson a modul lefelé mutató nyílára.
Válassza a Metaadatok szerkesztése lehetőséget, majd a vászontól jobbra található Tulajdonságok panelen kattintson az Oszlopindító indítása elemre.
Az Oszlopok kijelölése párbeszédpanelen jelölje ki az elérhető oszlopok összes sorát, majd kattintással > helyezze át őket a kijelölt oszlopokba. A párbeszédpanelnek így kell kinéznie:
Kattintson az OK pipára .
A Tulajdonságok panelen keresse meg az Új oszlopnevek paramétert. Ebben a mezőben adja meg az adathalmaz 21 oszlopának nevét, vesszővel elválasztva és oszlopsorrendben. Az oszlopneveket az adathalmaz dokumentációjából szerezheti be az UCI webhelyén, vagy az egyszerűség kedvéért másolja és illessze be a következő listát:
```
Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
```
A Tulajdonságok panel a következőképpen néz ki:

Tipp.

Ha ellenőrizni szeretné az oszlopfejléceket, futtassa a kísérletet (kattintson a FUTTATÁS gombra a kísérlet vászna alatt). A futtatás befejezése után (a Metaadatok szerkesztése területen zöld pipa jelenik meg), kattintson a Metaadatok szerkesztése modul kimeneti portjára, és válassza a Vizualizáció lehetőséget. Bármely modul kimenetét ugyanúgy tekintheti meg, hogy az adatok előrehaladását a kísérleten keresztül tekinthesse meg.

Betanítási és tesztelési adatkészletek létrehozása

Szüksége van néhány adatra a modell betanítása érdekében, és néhányat a teszteléshez. A kísérlet következő lépésében tehát az adathalmazt két különálló adatkészletre osztja fel: egyet a modell betanítására, egyet pedig tesztelésre.

Ehhez az Adatok felosztása modult kell használnia.

Keresse meg az Adatok felosztása modult, húzza a vászonra, és csatlakoztassa a Metaadatok szerkesztése modulhoz.
Alapértelmezés szerint a felosztási arány 0,5, a véletlenszerű felosztás paraméter pedig be van állítva. Ez azt jelenti, hogy az adatok véletlenszerű fele a Split Data modul egyik portja, a másik fele pedig a kimenet. Ezeket a paramétereket, valamint a véletlenszerű magparamétert is módosíthatja a betanítási és tesztelési adatok közötti felosztás módosításához. Ebben a példában a következőképpen hagyja meg őket.

Tipp.

Az első kimeneti adatkészlet sorainak törtrésze tulajdonság határozza meg, hogy az adatok mekkora részét adja ki a bal oldali kimeneti porton keresztül. Ha például az arányt 0,7-re állítja, akkor az adatok 70%-a a bal oldali porton, 30%-a pedig a jobb porton keresztül jön ki.
Kattintson duplán az Adatok felosztása modulra, és írja be a következő megjegyzést: "Betanítási/tesztelési adatok felosztása 50%".

Az Adatok felosztása modul kimeneteit tetszés szerint használhatja, de a bal oldali kimenetet betanítási adatokként, a jobb kimenetet pedig tesztelési adatokként használhatja.

Ahogy az előző lépésben is említettük, a magas hitelkockázat alacsonyként való helytelen besorolásának költsége ötször magasabb, mint az alacsony hitelkockázatok magasként való besorolásának költsége. Ennek figyelembe vételéhez létrehoz egy új adatkészletet, amely tükrözi ezt a költségfüggvényt. Az új adatkészletben minden magas kockázatú példa ötször replikálódik, míg az alacsony kockázatú példák nem replikálódnak.

Ezt a replikációt R-kóddal végezheti el:

Keresse meg és húzza az Execute R Script modult a kísérletvászonra.
Csatlakoztassa az Adatok felosztása modul bal oldali kimeneti portját az R-szkript végrehajtása modul első bemeneti portjához ("Adatkészlet1").
Kattintson duplán az R-szkript végrehajtása modulra, és írja be a "Költségmódosítás beállítása" megjegyzést.

A Tulajdonságok panelen törölje az alapértelmezett szöveget az R-szkript paraméterben, és írja be ezt a szkriptet:

dataset1 <- maml.mapInputPort(1)
data.set<-dataset1[dataset1[,21]==1,]
pos<-dataset1[dataset1[,21]==2,]
for (i in 1:5) data.set<-rbind(data.set,pos)
maml.mapOutputPort("data.set")

R-szkript az R-szkript végrehajtása modulban

Ugyanezt a replikációs műveletet kell végrehajtania az Adatok felosztása modul minden kimenetéhez, hogy a betanítási és tesztelési adatok ugyanolyan költségmódosítással rendelkezzenek. Ennek legegyszerűbb módja, ha duplikálja az imént létrehozott Execute R Script modult, és csatlakoztatja a Split Data modul másik kimeneti portjához.

Kattintson a jobb gombbal az R-szkript végrehajtása modulra, és válassza a Másolás parancsot.
Kattintson a jobb gombbal a kísérletvászonra, és válassza a Beillesztés lehetőséget.
Húzza az új modult a pozícióba, majd csatlakoztassa az Adatok felosztása modul megfelelő kimeneti portját az új R-szkriptmodul első bemeneti portjához.
A vászon alján kattintson a Futtatás gombra.

Tipp.

Az R-szkript végrehajtása modul másolata ugyanazt a szkriptet tartalmazza, mint az eredeti modul. Amikor egy modult másol és illeszt be a vászonra, a másolat megőrzi az eredeti összes tulajdonságát.

A kísérletünk most a következőhöz hasonlóan néz ki:

Osztott modul és R-szkriptek hozzáadása

További információ az R-szkriptek kísérletben való használatáról: A kísérlet kiterjesztése az R-vel.

Az erőforrások eltávolítása

Ha már nincs szüksége a cikk használatával létrehozott erőforrásokra, törölje őket, hogy elkerülje a díjak felmerülését. Ebből a cikkből megtudhatja, hogyan exportálhatja és törölheti a terméken belüli felhasználói adatokat.

Következő lépések

Ebben az oktatóanyagban az alábbi lépéseket hajtotta végre:

Machine Learning Studio -munkaterület létrehozása (klasszikus)
Meglévő adatok feltöltése a munkaterületre
Kísérlet létrehozása

Most már készen áll az adatok modelljeinek betanítása és kiértékelése.

2. oktatóanyag – Modellek betanítása és kiértékelése

Megosztás a következőn keresztül:

1. oktatóanyag: Hitelkockázat előrejelzése – Machine Learning Studio (klasszikus)

Előfeltételek

Machine Learning Studio -munkaterület létrehozása (klasszikus)

Meglévő adatok feltöltése

Az adathalmaz formátumának konvertálása

Az adathalmaz feltöltése a Machine Learning Studióba (klasszikus)

Kísérlet létrehozása

Az adatok előkészítése

Betanítási és tesztelési adatkészletek létrehozása

Az erőforrások eltávolítása

Következő lépések

További források