Mi az a SynapseML?

Cikk
10/14/2024

A SynapseML (korábbi nevén MMLSpark) egy nyílt forráskódú kódtár, amely leegyszerűsíti a nagymértékben skálázható gépi tanulási (ML-) folyamatok létrehozását. A SynapseML egyszerű, összeállítható és elosztott API-kat biztosít számos különböző gépi tanulási feladathoz, például szövegelemzéshez, látáshoz, anomáliadetektáláshoz és sok máshoz. A SynapseML az Apache Spark elosztott számítási keretrendszerre épül, és ugyanazt az API-t használja, mint a SparkML/MLLib-kódtár, így zökkenőmentesen beágyazhat SynapseML-modelleket a meglévő Apache Spark-munkafolyamatokba.

A SynapseML segítségével skálázható és intelligens rendszereket hozhat létre olyan területeken jelentkező kihívások megoldásához, mint az anomáliadetektálás, a számítógépes látás, a mélytanulás, a szövegelemzés és mások. A SynapseML képes modellek betanítása és kiértékelése egycsomópontos, többcsomópontos és rugalmasan átméretezhető számítógépfürtökön. Így erőforrások nélkül skálázhatja a munkáját. A SynapseML a Python, az R, a Scala, a Java és a .NET használatával használható. Emellett az API számos különböző adatbázison, fájlrendszeren és felhőbeli adattáron absztrakciót is kínál, hogy az adatok helyétől függetlenül egyszerűsítse a kísérleteket.

A SynapseML használatához Scala 2.12, Spark 3.0+ és Python 3.6+ szükséges.

A SynapseML főbb jellemzői

Egységes API modellek létrehozásához, betanításához és pontozásához

A SynapseML egységes API-t kínál, amely leegyszerűsíti a hibatűrő elosztott programok fejlesztését. A SynapseML számos különböző gépi tanulási keretrendszert tesz elérhetővé egyetlen, skálázható, adat- és nyelvi agnosztikus API-ban, és kötegelt, streamelhető és alkalmazások kiszolgálására is használható.

Az egységes API számos eszközt, keretrendszert, algoritmust szabványosít, és leegyszerűsíti az elosztott gépi tanulási élményt. Lehetővé teszi a fejlesztők számára a különálló gépi tanulási keretrendszerek gyors összeállítását, a kód tiszta maradását, és lehetővé teszi a több keretrendszert igénylő munkafolyamatokat. Például az olyan munkafolyamatok, mint a webes tanulás vagy a keresőmotorok létrehozása, több szolgáltatást és keretrendszert igényelnek. A SynapseML védi a felhasználókat ettől az extra összetettségtől.

Előre összeállított intelligens modellek használata

A SynapseML számos eszközéhez nincs szükség nagy címkével ellátott betanítási adatkészletre. Ehelyett a SynapseML egyszerű API-kat biztosít az előre összeállított intelligens szolgáltatásokhoz, például az Azure AI-szolgáltatásokhoz, hogy gyorsan megoldhassa az üzleti és a kutatással kapcsolatos nagy léptékű AI-kihívásokat. A SynapseML lehetővé teszi a fejlesztők számára, hogy több mint 50 különböző, korszerű ml-szolgáltatást ágyazhassanak be közvetlenül a rendszereikbe és adatbázisaikba. Ezek a használatra kész algoritmusok számos dokumentumot elemezhetnek, valós időben átírhatnak több beszélős beszélgetéseket, és több mint 100 különböző nyelvre fordíthatnak le szöveget. További példák a feladatok gyors megoldásához előre elkészített mesterséges intelligenciával történő megoldására: a SynapseML "kognitív" példái.

Annak érdekében, hogy a SynapseML integrálása az Azure AI-szolgáltatásokkal gyors és hatékony legyen, a SynapseML számos optimalizálást vezet be a szolgáltatásorientált munkafolyamatokhoz. A SynapseML automatikusan elemzi a gyakori szabályozási válaszokat annak érdekében, hogy a feladatok ne terhelje túl a háttérszolgáltatásokat. Emellett exponenciális visszakapcsolásokkal kezeli a megbízhatatlan hálózati kapcsolatokat és a sikertelen válaszokat. Végül a Spark feldolgozó gépei továbbra is elfoglalják a Spark új aszinkron párhuzamossági primitíveit. Az aszinkron párhuzamosság lehetővé teszi, hogy a feldolgozó gépek kéréseket küldjenek, miközben a kiszolgáló válaszára várnak, és tízszeres átviteli sebességet eredményezhetnek.

Széles körű ökoszisztéma-kompatibilitás az ONNX-sel

A SynapseML lehetővé teszi a fejlesztők számára, hogy számos különböző ML-ökoszisztémából származó modelleket használjanak az Open Neural Network Exchange (ONNX) keretrendszeren keresztül. Ezzel az integrációval számos klasszikus és mélytanulási modellt hajthat végre nagy léptékben, mindössze néhány sornyi kóddal. A SynapseML automatikusan kezeli az ONNX-modellek munkavégző csomópontokra való elosztását, a bemeneti adatok nagy átviteli sebességhez való kötegelését és pufferelését, valamint a hardvergyorsítókon végzett munka ütemezését.

Az ONNX Sparkba való eljuttatása nem csak a mélytanulási modellek méretezésében segít a fejlesztőknek, hanem az elosztott következtetést is lehetővé teszi az ML-ökoszisztémák széles körében. Az ONNXMLTools különösen a TensorFlow, a scikit-learn, a Core ML, a LightGBM, az XGBoost, a H2O és a PyTorch modelleket alakítja ONNX-re a SynapseML használatával történő gyorsított és elosztott következtetés érdekében.

Felelős AI-rendszerek létrehozása

A modell létrehozása után elengedhetetlen, hogy a kutatók és a mérnökök megértsék annak korlátait és viselkedését az üzembe helyezés előtt. A SynapseML új eszközök bevezetésével segíti a fejlesztőket és kutatókat a felelős AI-rendszerek kiépítésében, amelyekből megtudhatja, hogy a modellek miért adnak bizonyos előrejelzéseket, és hogyan javíthatják a betanítási adatkészletet az torzítások kiküszöbölése érdekében. A SynapseML jelentősen felgyorsítja a felhasználó betanított modelljének megértését azáltal, hogy lehetővé teszi a fejlesztők számára a számítások több száz gép közötti elosztását. Pontosabban a SynapseML a Shapley Additive Explanations (SHAP) és a helyileg értelmezhető modell-agnosztikus magyarázatok (LIME) elosztott implementációit tartalmazza a látás, a szöveg és a táblázatos modellek előrejelzéseinek magyarázatához. Olyan eszközöket is tartalmaz, mint az egyéni feltételes várakozás (ICE) és a felismert elfogult adathalmazok részleges függőségelemzése.

Nagyvállalati támogatás az Azure Synapse Analyticsben

A SynapseML általánosan elérhető az Azure Synapse Analyticsben nagyvállalati támogatással. Nagy méretű gépi tanulási folyamatokat hozhat létre az Azure AI-szolgáltatások, a LightGBM, az ONNX és más kiválasztott SynapseML-funkciók használatával. Emellett olyan sablonokat is tartalmaz, amely segítségével gyorsan prototípusokat készíthet elosztott gépi tanulási rendszerekről, például vizuális keresőmotorokról, prediktív karbantartási folyamatokról, dokumentumfordításról és egyebekről.

Következő lépések

A SynapseML-ről további információt a SynapseML: Egy egyszerű, többnyelvű és nagymértékben párhuzamos gépi tanulási kódtárban talál.
Telepítse a SynapseML-t, és ismerkedjen meg a példákkal.
SynapseML GitHub-adattár.

Megosztás a következőn keresztül: