Az Azure Synapse Analytics gépi tanulási képességei

Cikk
03/12/2024

Az Azure Synapse Analytics különböző gépi tanulási képességeket kínál. Ez a cikk áttekintést nyújt arról, hogyan alkalmazhat gépi Tanulás az Azure Synapse kontextusában.

Ez az áttekintés a Synapse gépi tanulással kapcsolatos különböző képességeit ismerteti adatelemzési folyamat szempontjából.

Lehet, hogy ismeri egy tipikus adatelemzési folyamat megjelenését. Ez egy jól ismert folyamat, amelyet a legtöbb gépi tanulási projekt követ.

Magas szinten a folyamat a következő lépéseket tartalmazza:

Üzleti ismeretek (ebben a cikkben nem tárgyalt)
Adatgyűjtés és adatértelmezés
Modellezés
Modell üzembe helyezése és pontozása

Ez a cikk az Azure Synapse gépi tanulási képességeit ismerteti különböző elemzési motorokban, adatelemzési folyamat szempontjából. Az adatelemzési folyamat minden lépéséhez összefoglaljuk az Azure Synapse azon képességeit, amelyek segíthetnek.

Adatgyűjtés és adatértelmezés

A legtöbb gépi tanulási projekt jól bevált lépéseket tartalmaz, és az egyik ilyen lépés az adatok elérése és megértése.

Adatforrások és folyamatok

Az Azure Data Factorynek, az Azure Synapse natívan integrált részének köszönhetően hatékony eszközök állnak rendelkezésre az adatbetöltési és adatvezénylési folyamatokhoz. Ez lehetővé teszi az adatfolyamatok egyszerű létrehozását az adatok eléréséhez és átalakításához a gépi tanuláshoz használható formátumban. További információ a Synapse-beli adatfolyamokról .

Adat-előkészítés és -feltárás/vizualizáció

A gépi tanulási folyamat fontos része az adatok feltárása és vizualizációk általi megértése.

Attól függően, hogy hol tárolják az adatokat, a Synapse különböző eszközöket kínál az elemzések és a gépi tanulás megismeréséhez és előkészítéséhez. Az adatfeltárás első lépéseinek egyik leggyorsabb módja az Apache Spark vagy a kiszolgáló nélküli SQL-készletek használata közvetlenül a data lake-beli adatokon keresztül.

Az Apache Spark for Azure Synapse olyan képességeket kínál, mint az adatok nagy léptékű átalakítása, előkészítése és feltárása. Ezek a spark-készletek olyan eszközöket kínálnak, mint a PySpark/Python, a Scala és a .NET a nagy léptékű adatfeldolgozáshoz. Hatékony vizualizációs kódtárak használatával az adatfeltárási felület továbbfejleszthető az adatok jobb megértése érdekében. További információ arról, hogyan vizsgálhatja meg és vizualizálhatja az adatokat a Synapse-ban a Spark használatával.
A kiszolgáló nélküli SQL-készletek segítségével közvetlenül a data lake-en keresztül vizsgálhatja meg az adatokat a TSQL használatával. A kiszolgáló nélküli SQL-készletek beépített vizualizációkat is kínálnak a Synapse Studióban. További információ arról, hogyan vizsgálhat meg adatokat kiszolgáló nélküli SQL-készletekkel.

Modellezés

Az Azure Synapse-ban betanítási gépi tanulási modellek végezhetők el az Apache Spark-készletekben olyan eszközökkel, mint a PySpark/Python, a Scala vagy a .NET.

Modellek betanítása Spark-készleteken az MLlib használatával

A gépi tanulási modellek különböző algoritmusok és kódtárak segítségével taníthatók be. A Spark MLlib skálázható gépi tanulási algoritmusokat kínál, amelyek segíthetnek a legtöbb klasszikus gépi tanulási probléma megoldásában. Az MLlib használatával a Synapse-ban történő modellbetanulásról az Apache Spark MLlib és az Azure Synapse Analytics használatával készült gépi tanulási alkalmazás létrehozása című témakörben talál oktatóanyagot.

Az MLlib mellett népszerű kódtárak, például a Scikit Learn is használhatók modellek fejlesztésére. A kódtárak Synapse Spark-készletekre való telepítésével kapcsolatos részletekért lásd : Apache Spark-kódtárak kezelése az Azure Synapse Analyticsben .

Modellek betanítása az Azure Machine Tanulás automatizált gépi tanulással

A gépi tanulási modellek betanítása egy másik módja, amely nem igényel sok előz meg a gépi tanulást, az automatizált gépi tanulás használata. Az automatizált gépi tanulás olyan funkció, amely automatikusan betanított gépi tanulási modelleket, és lehetővé teszi a felhasználó számára, hogy meghatározott metrikák alapján válassza ki a legjobb modellt. Az Azure Synapse Notebookokból származó Azure Machine Tanulás zökkenőmentes integrációjának köszönhetően a felhasználók egyszerűen használhatják az automatizált gépi tanulást a Synapse-ban átmenő Microsoft Entra-hitelesítéssel. Ez azt jelenti, hogy csak az Azure Machine Tanulás-munkaterületre kell mutatnia, és nem kell hitelesítő adatokat megadnia. A Modell betanítása a Pythonban automatizált gépi tanulással című oktatóanyag azt ismerteti, hogyan taníthat be modelleket az Azure Machine Tanulás automatizált gépi tanulással a Synapse Spark-készletekben.

Figyelmeztetés

2023. szeptember 29-én az Azure Synapse megszünteti a Spark 2.4-futtatókörnyezetek hivatalos támogatását. 2023. szeptember 29-én nem foglalkozunk a Spark 2.4-hez kapcsolódó támogatási jegyekkel. A Spark 2.4 hiba- vagy biztonsági javításaihoz nem lesz kiadási folyamat. A Spark 2.4-et a támogatási leépítési dátum után saját felelősségre hajtjuk végre. A potenciális biztonsági és működési problémák miatt határozottan elriasztjuk a folyamatos használattól.
Az Apache Spark 2.4 elavulásának részeként értesíteni szeretnénk, hogy az Azure Synapse Analytics autoML-jének elavultsága is megszűnik. Ez magában foglalja az alacsony kódfelületet és az AutoML-próbaverziók kódon keresztüli létrehozásához használt API-kat is.
Vegye figyelembe, hogy az AutoML funkció kizárólag a Spark 2.4-es futtatókörnyezeten keresztül volt elérhető.
AzOknak az ügyfeleknek, akik továbbra is szeretnék kihasználni az AutoML képességeit, javasoljuk, hogy mentse az adatokat az Azure Data Lake Storage Gen2 (ADLSg2) fiókjába. Innen zökkenőmentesen elérheti az AutoML-felületet az Azure Machine Tanulás (AzureML) használatával. A kerülő megoldással kapcsolatos további információk itt érhetők el.

Modell üzembe helyezése és pontozása

Az Azure Synapse-ban vagy az Azure Synapse-on kívül betanított modellek könnyen használhatók kötegelt pontozáshoz. Jelenleg a Synapse-ban kétféleképpen futtathat kötegelt pontozást.

A Synapse SQL-készletek TSQL PREDICT függvényével közvetlenül az adatok helyén futtathatja az előrejelzéseket. Ez a hatékony és méretezhető funkció lehetővé teszi az adatok bővítését anélkül, hogy bármilyen adatot áthelyezne az adattárházból. A Synapse Studióban egy új interaktív gépi tanulási modell lett bevezetve, ahol az Azure Machine Tanulás modellregisztrációs adatbázisából üzembe helyezhet egy ONNX-modellt a Synapse SQL-készletekben kötegelt pontozáshoz a PREDICT használatával.
Az Azure Synapse kötegelt pontozási gépi tanulási modelljeinek másik lehetősége az Apache Spark-készletek használata az Azure Synapse-hez. A modellek betanításához használt kódtáraktól függően kódélményt használhat a kötegelt pontozás futtatásához.

SynapseML

A SynapseML (korábbi nevén MMLSpark) egy nyílt forráskódú kódtár, amely leegyszerűsíti a nagymértékben skálázható gépi tanulási (ML-) folyamatok létrehozását. Az Apache Spark-keretrendszer több új irányban történő bővítéséhez használt eszközök ökoszisztémája. A SynapseML több meglévő gépi tanulási keretrendszert és új Microsoft-algoritmust egyesít egyetlen, skálázható API-vá, amely a Python, az R, a Scala, a .NET és a Java használatával használható. További információkért tekintse meg a SynapseML főbb funkcióit.