Megosztás a következőn keresztül:


Adatok elemzése Azure Machine Learning segítségével

Ez az oktatóanyag az Azure Machine Learning Designer használatával hoz létre egy prediktív gépi tanulási modellt. A modell a Azure Synapse tárolt adatokon alapul. Az oktatóanyag forgatókönyve annak előrejelzése, hogy az ügyfél valószínűleg kerékpárt vásárol-e, vagy sem, így az Adventure Works, a kerékpárbolt célzott marketingkampányt hozhat létre.

Előfeltételek

Az oktatóanyag teljesítéséhez a következőkre lesz szüksége:

Az adatok lekérése

A használt adatok az AdventureWorksDW dbo.vTargetMail nézetében láthatók. A Datastore használatához ebben az oktatóanyagban az adatok először Azure Data Lake Storage fiókba lesznek exportálva, mivel Azure Synapse jelenleg nem támogatják az adatkészleteket. Azure Data Factory adatok exportálására használható az adattárházból a másolási tevékenységgel Azure Data Lake Storage. Az importáláshoz használja a következő lekérdezést:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Miután az adatok elérhetővé válnak Azure Data Lake Storage, az Azure Machine Learning adattárai az Azure Storage-szolgáltatásokhoz való csatlakozásra szolgálnak. Az alábbi lépéseket követve hozzon létre egy adattárat és egy megfelelő adatkészletet:

  1. Indítsa el Azure Machine Learning stúdió Azure Portal vagy jelentkezzen be a Azure Machine Learning stúdió.

  2. Kattintson a Bal oldali panelEn az Adattárak elemre a Kezelés szakaszban, majd kattintson az Új adattár elemre.

    Képernyőkép az Azure Machine Learning felület bal oldali paneljéről

  3. Adja meg az adattár nevét, válassza ki a típust "Azure Blob Storage", adja meg a helyet és a hitelesítő adatokat. Ezután kattintson a Létrehozás gombra.

  4. Ezután kattintson a bal oldali panel Adathalmazok elemére az Eszközök szakaszban. Válassza az Adathalmaz létrehozása lehetőséget az Adattárból lehetőséggel.

  5. Adja meg az adathalmaz nevét, és válassza ki a táblázatos típust. Ezután kattintson a Tovább gombra a továbblépéshez.

  6. Az Adattár kiválasztása vagy létrehozása szakaszban válassza a Korábban létrehozott adattár lehetőséget. Válassza ki a korábban létrehozott adattárat. Kattintson a Tovább gombra, és adja meg az elérési utat és a fájlbeállításokat. Ügyeljen arra, hogy oszlopfejlécet adjon meg, ha a fájlok tartalmaznak egyet.

  7. Végül kattintson a Létrehozás gombra az adathalmaz létrehozásához.

Tervezői kísérlet konfigurálása

Ezután kövesse az alábbi lépéseket a tervezők konfigurálásának érdekében:

  1. Kattintson Tervező fülre a bal oldali panel Szerző szakaszában.

  2. Új folyamat létrehozásához válassza az Könnyen használható előre összeállított összetevők lehetőséget.

  3. A jobb oldali beállítások panelen adja meg a folyamat nevét.

  4. Emellett válasszon ki egy cél számítási fürtöt a teljes kísérlethez a Beállítások gombra kattintva egy korábban kiépített fürtre. Zárja be a Beállítások panelt.

Adatok importálása

  1. Válassza ki az Adathalmazok altáblát a keresőmező alatti bal oldali panelen.

  2. Húzza a korábban létrehozott adathalmazt a vászonra.

    Képernyőkép a vászon adathalmaz-összetevőjéről.

Az adatok megtisztítása

Az adatok tisztításához olyan oszlopokat helyezzen el, amelyek nem relevánsak a modell szempontjából. Kövesse az alábbi lépéseket:

  1. Válassza ki az Összetevők altáblát a bal oldali panelen.

  2. Húzza a vászonra az Adathalmaz oszlopainak kijelölése összetevőt az Adatátalakítási < manipuláció területen. Csatlakoztassa ezt az összetevőt az Adathalmaz összetevőhöz.

    Képernyőkép a vászon oszlopkijelölési összetevőjéről.

  3. Kattintson az összetevőre a Tulajdonságok panel megnyitásához. Kattintson az Oszlop szerkesztése elemre az elvetni kívánt oszlopok megadásához.

  4. Két oszlop kizárása: CustomerAlternateKey és GeographyKey. Kattintson a Mentés gombra.

    Képernyőkép az elvetett oszlopokról.

A modell létrehozása

Az adatok felosztása 80–20: 80% egy gépi tanulási modell betanításához, 20% a modell teszteléséhez. Ebben a bináris besorolási problémában "kétosztályos" algoritmusokat használunk.

  1. Húzza az Adatok felosztása összetevőt a vászonra.

  2. A tulajdonságok panelen adja meg a 0,8 értéket az első kimeneti adathalmaz sorainak törtrésze mezőben.

    Képernyőkép a 0,8 felosztási arányról.

  3. Húzza a kétosztályos kiemelt döntési fa összetevőt a vászonra.

  4. Húzza a Modell betanítása összetevőt a vászonra. Adja meg a bemeneteket a kétosztályos kiemelt döntési fához (ML-algoritmus ) és az Adatok felosztása (az algoritmus betanításához szükséges adatok) összetevőkhöz való csatlakoztatásával.

  5. A Modell betanítása modell esetében a Tulajdonságok panel Címke oszlop lehetőségében válassza az Oszlop szerkesztése lehetőséget. Válassza ki a BikeBuyer oszlopot az előrejelzéshez, majd válassza a Mentés lehetőséget.

    Képernyőkép a kijelölt BikeBuyer címkeoszlopról.

    Képernyőkép a Modell betanítása összetevőről, amely Two-Class kiemelt döntési fához és az adatok felosztásához kapcsolódó összetevőkhöz csatlakozik.

A modell pontozása

Most tesztelje, hogyan teljesít a modell a tesztadatokon. A rendszer két különböző algoritmust hasonlít össze annak megtekintéséhez, hogy melyik teljesít jobban. Kövesse az alábbi lépéseket:

  1. Húzza a Score Model összetevőt a vászonra, és csatlakoztassa a Modell betanítása és az Adatok felosztása összetevőkhöz.

  2. Húzza a kétosztályos Bayes Averaged Perceptront a kísérletvászonra. Összehasonlíthatja, hogy ez az algoritmus hogyan teljesít a Two-Class Tolható döntési fával összehasonlítva.

  3. Másolja és illessze be a modell betanítása és a modell pontozása összetevőket a vásznon.

  4. Húzza a Modell kiértékelése összetevőt a vászonra a két algoritmus összehasonlításához.

  5. Kattintson a Küldés gombra a folyamatfuttatás beállításához.

    Képernyőkép a vásznon lévő összes többi összetevőről.

  6. A futtatás befejezése után kattintson a jobb gombbal a Modell kiértékelése összetevőre, és válassza a Kiértékelési eredmények megjelenítése parancsot.

    Képernyőkép az eredményekről.

A megadott metrikák a ROC-görbe, a pontossági visszahívási diagram és az emelési görbe. Tekintse meg ezeket a metrikákat, és ellenőrizze, hogy az első modell jobban teljesített-e, mint a második. Az első modell előrejelzésének megtekintéséhez kattintson a jobb gombbal a Modell pontozása összetevőre, majd kattintson a Pontozott adatkészlet megjelenítése elemre az előrejelzett eredmények megtekintéséhez.

Két további oszlopot fog látni a tesztadatkészlethez.

  • Pontozott valószínűség: annak valószínűsége, hogy az ügyfél kerékpárvásárló.
  • Pontozott címkék: a modell által elvégzett osztályozás – kerékpárvásárló (1) vagy sem (0). A címkézés valószínűségi küszöbértéke 50 százalékra van beállítva és módosítható.

Hasonlítsa össze a BikeBuyer (tényleges) oszlopot a pontozott címkékkel (előrejelzés), hogy lássa, mennyire teljesített a modell. Ezután ezzel a modellel előrejelzéseket készíthet az új ügyfelek számára. Ezt a modellt közzéteheti webszolgáltatásként, vagy visszaírhatja az eredményeket Azure Synapse.

Következő lépések

További információ az Azure Machine Learningről: Bevezetés az Azure-beli gépi tanulásba.

Itt megismerheti az adattárház beépített pontozását.