Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az Azure Synapse Analytics különböző gépi tanulási képességeket kínál. Ez a cikk áttekintést nyújt arról, hogyan alkalmazható a Machine Learning az Azure Synapse kontextusában.
Ez az áttekintés a Synapse gépi tanulással kapcsolatos különböző képességeit ismerteti adatelemzési folyamat szempontjából.
Lehet, hogy ismeri egy tipikus adatelemzési folyamat megjelenését. Ez egy jól ismert folyamat, amelyet a legtöbb gépi tanulási projekt követ.
Magas szinten a folyamat a következő lépéseket tartalmazza:
- Üzleti ismeretek (ebben a cikkben nem tárgyalt)
- Adatgyűjtés és adatértelmezés
- Modellezés
- Modell üzembe helyezése és pontozása
Ez a cikk az Azure Synapse gépi tanulási képességeit ismerteti különböző elemzési motorokban, adatelemzési folyamat szempontjából. Az adatelemzési folyamat minden lépéséhez összefoglaljuk az Azure Synapse azon képességeit, amelyek segíthetnek.
Adatgyűjtés és adatértelmezés
A legtöbb gépi tanulási projekt jól bevált lépéseket tartalmaz, és az egyik ilyen lépés az adatok elérése és megértése.
Adatforrások és folyamatok
Az Azure Data Factorynek, az Azure Synapse natívan integrált részének köszönhetően hatékony eszközök állnak rendelkezésre az adatbetöltési és adatvezénylési folyamatokhoz. Ez lehetővé teszi az adatfolyamatok egyszerű létrehozását az adatok eléréséhez és átalakításához a gépi tanuláshoz használható formátumban. További információ a Synapse-beli adatfolyamokról .
Adat-előkészítés és -feltárás/vizualizáció
A gépi tanulási folyamat fontos része az adatok feltárása és vizualizációk általi megértése.
Attól függően, hogy hol tárolják az adatokat, a Synapse különböző eszközöket kínál az elemzések és a gépi tanulás megismeréséhez és előkészítéséhez. Az adatfeltárás első lépéseinek egyik leggyorsabb módja az Apache Spark vagy a kiszolgáló nélküli SQL-készletek használata közvetlenül a data lake-beli adatokon keresztül.
Az Apache Spark for Azure Synapse olyan képességeket kínál, mint az adatok nagy léptékű átalakítása, előkészítése és feltárása. Ezek a spark-készletek olyan eszközöket kínálnak, mint a PySpark/Python, a Scala és a .NET a nagy léptékű adatfeldolgozáshoz. Hatékony vizualizációs kódtárak használatával az adatfeltárási felület továbbfejleszthető az adatok jobb megértése érdekében. További információ arról, hogyan vizsgálhatja meg és vizualizálhatja az adatokat a Synapse-ban a Spark használatával.
A kiszolgáló nélküli SQL-készletek segítségével közvetlenül a data lake-en keresztül vizsgálhatja meg az adatokat a TSQL használatával. A kiszolgáló nélküli SQL-készletek beépített vizualizációkat is kínálnak a Synapse Studióban. További információ arról, hogyan vizsgálhat meg adatokat kiszolgáló nélküli SQL-készletekkel.
Modellezés
Az Azure Synapse-ban betanítási gépi tanulási modellek végezhetők el az Apache Spark-készletekben olyan eszközökkel, mint a PySpark/Python, a Scala vagy a .NET.
Modellek betanítása Spark-készleteken az MLlib használatával
A gépi tanulási modellek különböző algoritmusok és kódtárak segítségével taníthatók be. A Spark MLlib skálázható gépi tanulási algoritmusokat kínál, amelyek segíthetnek a legtöbb klasszikus gépi tanulási probléma megoldásában. Az MLlib használatával a Synapse-ban történő modellbetanulásról az Apache Spark MLlib és az Azure Synapse Analytics használatával készült gépi tanulási alkalmazás létrehozása című témakörben talál oktatóanyagot.
Az MLlib mellett népszerű kódtárak, például a Scikit Learn is használhatók modellek fejlesztésére. A kódtárak Synapse Spark-készletekre való telepítésével kapcsolatos részletekért lásd : Apache Spark-kódtárak kezelése az Azure Synapse Analyticsben .
Modell üzembe helyezése és pontozása
Az Azure Synapse-ban vagy az Azure Synapse-on kívül betanított modellek könnyen használhatók kötegelt pontozáshoz. Jelenleg a Synapse-ban kétféleképpen futtathat kötegelt pontozást.
A Synapse SQL-készletek TSQL PREDICT függvényével közvetlenül az adatok helyén futtathatja az előrejelzéseket. Ez a hatékony és méretezhető funkció lehetővé teszi az adatok bővítését anélkül, hogy bármilyen adatot áthelyezne az adattárházból. A Synapse Studióban új interaktív gépi tanulási modell lett bevezetve, ahol a PREDICT használatával üzembe helyezhet egy ONNX-modellt az Azure Machine Learning-modellregisztrációs adatbázisból a Synapse SQL-készletekben a kötegelt pontozáshoz.
Az Azure Synapse kötegelt pontozási gépi tanulási modelljeinek másik lehetősége az Apache Spark-készletek használata az Azure Synapse-hez. A modellek betanításához használt kódtáraktól függően kódélményt használhat a kötegelt pontozás futtatásához.
SynapseML
A SynapseML (korábbi nevén MMLSpark) egy nyílt forráskódú kódtár, amely leegyszerűsíti a nagymértékben skálázható gépi tanulási (ML-) folyamatok létrehozását. Ez az Apache Spark-keretrendszer több új irányban történő bővítéséhez használt eszközök ökoszisztémája. A SynapseML több meglévő gépi tanulási keretrendszert és új Microsoft-algoritmust egyesít egyetlen, skálázható API-vá, amely a Python, az R, a Scala, a .NET és a Java használatával használható. További információkért tekintse meg a SynapseML főbb funkcióit.