Oktatóanyag: Gépi tanulási modell betanítása kód nélkül (elavult)
A Spark-táblákban lévő adatokat az automatizált gépi tanulással betanított új gépi tanulási modellekkel bővítheti. Az Azure Synapse Analyticsben kiválaszthat egy Spark-táblát a munkaterületen, amelyet betanítási adatkészletként használhat gépi tanulási modellek létrehozásához, és ezt kód nélküli felületen teheti meg.
Ebben az oktatóanyagban megtudhatja, hogyan taníthat be gépi tanulási modelleket kód nélküli felületen a Synapse Studióban. A Synapse Studio az Azure Synapse Analytics szolgáltatása.
A felhasználói élmény manuális kódolása helyett automatizált gépi tanulást fog használni az Azure Machine Learningben. A betanított modell típusa a megoldandó problémától függ. Ebben az oktatóanyagban egy regressziós modellt fog használni a New York-i taxiadatkészlet taxidíjainak előrejelzésére.
Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
Figyelmeztetés
- 2023. szeptember 29-én az Azure Synapse megszünteti a Spark 2.4-futtatókörnyezetek hivatalos támogatását. 2023. szeptember 29-én nem foglalkozunk a Spark 2.4-hez kapcsolódó támogatási jegyekkel. A Spark 2.4 hiba- vagy biztonsági javításaihoz nem lesz kiadási folyamat. A Spark 2.4-et a támogatási leépítési dátum után saját felelősségre hajtjuk végre. A potenciális biztonsági és működési problémák miatt határozottan elriasztjuk a folyamatos használattól.
- Az Apache Spark 2.4 elavulásának részeként értesíteni szeretnénk, hogy az Azure Synapse Analytics autoML-jének elavultsága is megszűnik. Ez magában foglalja az alacsony kódfelületet és az AutoML-próbaverziók kódon keresztüli létrehozásához használt API-kat is.
- Vegye figyelembe, hogy az AutoML funkció kizárólag a Spark 2.4-es futtatókörnyezeten keresztül volt elérhető.
- AzOknak az ügyfeleknek, akik továbbra is szeretnék kihasználni az AutoML képességeit, javasoljuk, hogy mentse az adatokat az Azure Data Lake Storage Gen2 (ADLSg2) fiókjába. Innen zökkenőmentesen elérheti az AutoML-felületet az Azure Machine Learning (AzureML) használatával. A kerülő megoldással kapcsolatos további információk itt érhetők el.
Előfeltételek
- Azure Synapse Analytics-munkaterület. Győződjön meg arról, hogy rendelkezik egy Azure Data Lake Storage Gen2-tárfiókkal, amely alapértelmezett tárolóként van konfigurálva. A Data Lake Storage Gen2 fájlrendszer esetében győződjön meg arról, hogy Ön a Storage Blob Data Közreműködője.
- Apache Spark-készlet (2.4-es verzió) az Azure Synapse Analytics-munkaterületen. További részletekért tekintse meg a rövid útmutatót: Kiszolgáló nélküli Apache Spark-készlet létrehozása a Synapse Studióval.
- Azure Machine Learning társított szolgáltatás az Azure Synapse Analytics-munkaterületen. További részletekért tekintse meg a rövid útmutatót: Új Azure Machine Learning-társított szolgáltatás létrehozása az Azure Synapse Analyticsben.
Jelentkezzen be az Azure Portalra
Jelentkezzen be az Azure Portalra.
Spark-tábla létrehozása a betanítási adatkészlethez
Ebben az oktatóanyagban egy Spark-táblára van szüksége. A következő jegyzetfüzet létrehoz egyet:
Töltse le a jegyzetfüzetet : Create-Spark-Table-NYCTaxi- Data.ipynb.
Importálja a jegyzetfüzetet a Synapse Studióba.
Jelölje ki a használni kívánt Spark-készletet, majd válassza az Összes futtatása lehetőséget. Ez a lépés lekéri a New York-i taxiadatokat a nyitott adathalmazból, és menti az adatokat az alapértelmezett Spark-adatbázisba.
A jegyzetfüzet futtatása után megjelenik egy új Spark-tábla az alapértelmezett Spark-adatbázis alatt. Az Adatok területen keresse meg a nyc_taxi nevű táblát.
Az automatizált gépi tanulási varázsló megnyitása
A varázsló megnyitásához kattintson a jobb gombbal az előző lépésben létrehozott Spark-táblára. Ezután válassza a Machine Learning>Train új modell betanítása lehetőséget.
Modelltípus kiválasztása
Válassza ki a gépi tanulási modell típusát a kísérlethez a megválaszolni kívánt kérdés alapján. Mivel az előrejelezni kívánt érték numerikus (taxi viteldíjak), válassza a Regressziót itt. Ezután válassza a Folytatás elemet.
A kísérlet konfigurálása
Adja meg az Azure Machine Learningben futtatott automatizált gépi tanulási kísérlet létrehozásának konfigurációs részleteit. Ez a futtatás több modellt is betanítása. A sikeres futtatás legjobb modellje regisztrálva van az Azure Machine Learning-modell beállításjegyzékében.
Azure Machine Learning-munkaterület: Egy automatizált gépi tanulási kísérlet futtatásához Azure Machine Learning-munkaterület szükséges. Az Azure Synapse Analytics-munkaterületet egy társított szolgáltatással is össze kell kapcsolnia az Azure Machine Learning-munkaterülettel. Miután teljesítette az összes előfeltételt, megadhatja azt az Azure Machine Learning-munkaterületet, amelyet az automatizált futtatáshoz használni szeretne.
Kísérlet neve: Adja meg a kísérlet nevét. Automatikus gépi tanulási futtatás beküldésekor meg kell adnia egy kísérlet nevét. A futtatásra vonatkozó információk a kísérlet alatt, az Azure Machine Learning-munkaterületen lesznek tárolva. Ez a felület alapértelmezés szerint létrehoz egy új kísérletet, és létrehoz egy javasolt nevet, de megadhatja egy meglévő kísérlet nevét is.
Legjobb modell neve: Adja meg a legjobb modell nevét az automatizált futtatásból. A legjobb modell ezt a nevet kapja, és a futtatás után automatikusan menti az Azure Machine Learning-modell beállításjegyzékében. Az automatizált gépi tanulási futtatás számos gépi tanulási modellt hoz létre. A későbbi lépésben kiválasztott elsődleges metrika alapján ezek a modellek összehasonlíthatók, és a legjobb modell kiválasztható.
Céloszlop: Ezt tanítja be a modell az előrejelzéshez. Válassza ki az előrejelezni kívánt adatokat tartalmazó adatkészlet oszlopát. Ebben az oktatóanyagban válassza ki a numerikus oszlopot
fareAmount
céloszlopként.Spark-készlet: Adja meg az automatizált kísérletfuttatáshoz használni kívánt Spark-készletet. A számítások a megadott készleten futnak.
Spark-konfiguráció részletei: A Spark-készleten kívül lehetősége van a munkamenet-konfiguráció részleteinek megadására is.
Válassza a Folytatás lehetőséget.
A modell konfigurálása
Mivel az előző szakaszban a Regressziót választotta modelltípusként, a következő konfigurációk érhetők el (ezek a besorolási modell típusához is elérhetők):
Elsődleges metrika: Adja meg azt a metrikát, amely a modell működését méri. Ezzel a metrikával összehasonlíthatja az automatizált futtatás során létrehozott különböző modelleket, és meghatározhatja, hogy melyik modell teljesített a legjobban.
Betanítási feladat ideje (óra): Adja meg a modellek futtatásához és betanításához szükséges maximális időtartamot órákban. Vegye figyelembe, hogy 1-nél kisebb értékeket is megadhat (például 0,5).
Egyidejű iterációk maximális száma: Válassza ki a párhuzamosan futó iterációk maximális számát.
ONNX-modellkompatibilitás: Ha engedélyezi ezt a beállítást, az automatizált gépi tanulással betanított modellek ONNX formátumba lesznek konvertálva. Ez különösen akkor fontos, ha a modellt az Azure Synapse Analytics SQL-készletekben történő pontozáshoz szeretné használni.
Ezek a beállítások mindegyike rendelkezik egy testre szabható alapértelmezett értékkel.
Futtatás indítása
Az összes szükséges konfiguráció befejezése után elindíthatja az automatizált futtatásokat. A Futtatás létrehozása lehetőséget választva közvetlenül hozhat létre futtatást – ez kód nélkül indítja el a futtatást. Másik lehetőségként, ha a kódot részesíti előnyben, válassza a Megnyitás jegyzetfüzetben lehetőséget – ez megnyitja a futtatást létrehozó kódot tartalmazó jegyzetfüzetet, hogy ön is megtekinthesse a kódot, és elindíthassa a futtatást.
Feljegyzés
Ha az előző szakaszban az idősor-előrejelzést választotta modelltípusként, további konfigurációkat kell végeznie. Az előrejelzés nem támogatja az ONNX-modell kompatibilitását.
Futtatás létrehozása közvetlenül
Ha közvetlenül szeretné elindítani az automatizált gépi tanulást, válassza a Futtatás létrehozása lehetőséget. Megjelenik egy értesítés, amely jelzi, hogy a futtatás elindult. Ezután megjelenik egy másik értesítés, amely a sikert jelzi. Az Azure Machine Learning állapotát az értesítésben található hivatkozásra kattintva is ellenőrizheti.
Futtatás létrehozása jegyzetfüzettel
Jegyzetfüzet létrehozásához válassza a Megnyitás jegyzetfüzetben lehetőséget. Ez lehetővé teszi, hogy beállításokat adjon hozzá, vagy más módon módosítsa az automatizált gépi tanulási futtatás kódját. Ha készen áll a kód futtatására, válassza az Összes futtatása lehetőséget.
A futtatás figyelése
A futtatás sikeres elküldése után megjelenik egy hivatkozás a kísérlet futtatására az Azure Machine Learning-munkaterületen a jegyzetfüzet kimenetében. Válassza ki a hivatkozást az automatizált futtatás Azure Machine Learningben való figyeléséhez.