Megosztás a következőn keresztül:


Gépi tanulási modellek betanítása

Az Apache Spark – a Microsoft Fabric része – lehetővé teszi a big data-alapú gépi tanulást. Az Apache Spark segítségével értékes megállapításokat készíthet strukturált, strukturálatlan és gyorsan mozgó adatok nagy tömegébe. Számos elérhető nyílt forráskódú kódtár-beállítással rendelkezik, amikor gépi tanulási modelleket tanít be az Apache Spark használatával a Microsoft Fabricben: Apache Spark MLlib, SynapseML és mások.

Apache SparkML és MLlib

Az Apache Spark – a Microsoft Fabric része – egységes, nyílt forráskódú, párhuzamos adatfeldolgozási keretrendszert biztosít. Ez a keretrendszer támogatja a memórián belüli feldolgozást, amely fokozza a big data-elemzést. A Spark-feldolgozó motor a sebesség, a könnyű használat és a kifinomult elemzés érdekében készült. A Spark memórián belüli elosztott számítási képességei jó választássá teszik a gépi tanulás és a gráfszámítások által használt iteratív algoritmusok számára.

Az MLlib és a SparkML skálázható gépi tanulási kódtárak algoritmikus modellezési képességeket hoznak létre ehhez az elosztott környezethez. Az MLlib az RDD-kre épülő eredeti API-t tartalmazza. A SparkML egy újabb csomag. A DataFrame-ekre épülő, magasabb szintű API-t biztosít az ML-folyamatok létrehozásához. A SparkML még nem támogatja az MLlib összes funkcióját, de az MLlib-t a standard Spark gépi tanulási kódtárként cseréli le.

Feljegyzés

A SparkML-modell létrehozásával kapcsolatos további információkért látogasson el a Modellek betanítása Apache Spark MLlib-erőforrással való betanítására.

Az Apache SparkHoz készült Microsoft Fabric futtatókörnyezet számos népszerű, nyílt forráskódú csomagot tartalmaz a gépi tanulási modellek betanításához. Ezek a kódtárak olyan újrafelhasználható kódot biztosítanak, amelyet belefoglalhat a programokba vagy projektekbe. A futtatókörnyezet tartalmazza az alábbi releváns gépi tanulási kódtárakat és másokat:

  • Scikit-learn – a klasszikus ML-algoritmusok egyik legnépszerűbb egycsomópontos gépi tanulási kódtára. A Scikit-learn a legtöbb felügyelt és nem felügyelt tanulási algoritmust támogatja, és képes kezelni az adatbányászatot és az adatelemzést.

  • XGBoost – népszerű gépi tanulási kódtár, amely optimalizált algoritmusokat tartalmaz döntési fák és véletlenszerű erdők betanításához.

  • A PyTorch és a Tensorflow hatékony Python-mélytanulási kódtárak. Ezekkel a kódtárakkal nullára állíthatja a készlet végrehajtóinak számát egygépes modellek létrehozásához. Bár ez a konfiguráció nem támogatja az Apache Sparkot, ez egy egyszerű, költséghatékony módja az egygépes modellek létrehozásának.

SynapseML

A SynapseML nyílt forráskódú kódtár (korábbi nevén MMLSpark) leegyszerűsíti a nagymértékben skálázható gépi tanulási (ML-) folyamatok létrehozását. Ezzel a Spark adatelemzői használata hatékonyabbá válik, mivel ez a kódtár növeli a kísérletezési arányt, és élvonalbeli gépi tanulási technikákat alkalmaz – beleértve a mély tanulást is – nagy adathalmazokon.

A SynapseML egy réteget biztosít a SparkML alacsony szintű API-k fölött méretezhető ML-modellek létrehozásakor. Ezek az API-k a sztringindexelést, a funkcióvektorok szerelvényét, az adatok gépi tanulási algoritmusokhoz megfelelő elrendezésekbe való kényszerítését és egyebeket fedik le. A SynapseML-kódtár leegyszerűsíti ezeket és más gyakori feladatokat a PySpark modelljeinek létrehozásához.

Ez a cikk áttekintést nyújt a gépi tanulási modellek betanítása a Microsoft Fabricben futó Apache Sparkban elérhető különböző lehetőségekről. A modell betanításáról az alábbi forrásokban talál további információt: