Mély tanulás (elavult)

Cikk
07/16/2024

Az Azure Synapse Analyticsben futó Apache Spark lehetővé teszi a big data-alapú gépi tanulást, így értékes megállapításokat kaphat nagy mennyiségű strukturált, strukturálatlan és gyorsan mozgó adatból. Az Azure Synapse Analyticsben az Azure Sparkot használó gépi tanulási modellek betanítására több lehetőség is van: Apache Spark MLlib, Azure Machine Learning és más nyílt forráskódú kódtárak.

Feljegyzés

Az Azure Synapse GPU-kompatibilis készletek előzetes verziója elavult.

Figyelemfelhívás

Az Apache Spark 3.1-es és 3.2-es Azure Synapse-futtatókörnyezetében lévő GPU-k elavultságáról és letiltásáról szóló értesítés

A GPU gyorsított előzetes verziója elavult az Apache Spark 3.2 (elavult) futtatókörnyezetben. Az elavult futtatókörnyezetek nem rendelkeznek hiba- és funkciójavításokkal. Ez a futtatókörnyezet és a megfelelő GPU gyorsított előzetes verziója a Spark 3.2-ben 2024. július 8-án megszűnt és le lett tiltva.
A GPU gyorsított előzetes verziója elavult az Azure Synapse 3.1 (elavult) futtatókörnyezetben. Az Apache Spark 3.1-hez készült Azure Synapse Runtime 2023. január 26-tól megszűnt, a hivatalos támogatás 2024. január 26-tól megszűnt, és a támogatási jegyek, hibajavítások és biztonsági frissítések kezelése ezen a napon túl nem történt meg.

GPU-kompatibilis Apache Spark-készletek

A készletek létrehozásának és kezelésének egyszerűsítése érdekében az Azure Synapse gondoskodik az alacsony szintű kódtárak előzetes telepítéséről és a számítási csomópontok közötti összetett hálózati követelmények beállításáról. Ez az integráció lehetővé teszi a felhasználók számára, hogy néhány percen belül megkezdődjenek a GPU-gyorsított készletek használatában.

Feljegyzés

A GPU-gyorsított készletek az USA keleti régiójában, Kelet-Ausztráliában és Észak-Európában található munkaterületeken hozhatók létre.
A GPU-gyorsított készletek csak az Apache Spark 3.1 (elavult) és a 3.2 futtatókörnyezet (elavult) esetén érhetők el.
Előfordulhat, hogy a GPU-kompatibilis fürtök létrehozásához korlátnövelést kell kérnie.

GPU ML-környezet

Az Azure Synapse Analytics beépített támogatást nyújt a mély tanulási infrastruktúrához. Az Apache Spark 3 Azure Synapse Analytics-futtatókörnyezetei támogatják a leggyakoribb mélytanulási kódtárakat, például a TensorFlow-t és a PyTorch-t. Az Azure Synapse futtatókörnyezet olyan támogató kódtárakat is tartalmaz, mint a Petastorm és a Horovod, amelyeket gyakran használnak elosztott betanításokhoz.

Tensorflow

A TensorFlow egy nyílt forráskód gépi tanulási keretrendszer minden fejlesztő számára. Gépi tanulási és mélytanulási alkalmazások implementálásához használják.

A Tensorflow-ról további információt a Tensorflow API dokumentációjában talál.

PyTorch

A PyTorch egy optimalizált tensor-kódtár a GPU-k és CPU-k használatával végzett mély tanuláshoz.

A PyTorchról további információt a PyTorch dokumentációjában talál.

Horovod

A Horovod a TensorFlow, a Keras és a PyTorch elosztott mélytanulási keretrendszere. A Horovodot úgy fejlesztették ki, hogy az elosztott mély tanulás gyors és könnyen használható legyen. Ezzel a keretrendszerrel egy meglévő betanítási szkript felskálázható úgy, hogy több száz GPU-n fusson néhány sornyi kódban. A Horovod emellett az Apache Sparkon is futtatható, így egyetlen folyamatba egyesítheti az adatfeldolgozást és a modell betanítását.

Ha többet szeretne megtudni arról, hogyan futtathat elosztott betanítási feladatokat az Azure Synapse Analyticsben, látogasson el a következő oktatóanyagokra: – Oktatóanyag: Elosztott betanítás a Horovod és a PyTorch - oktatóanyaggal: Elosztott betanítás a Horovod és a Tensorflow használatával

A Horovodról további információt a Horovod dokumentációjában talál.

Petastorm

A Petastorm egy nyílt forráskód adatelérési kódtár, amely lehetővé teszi a mélytanulási modellek egycsomópontos vagy elosztott betanítását. Ez a kódtár közvetlenül az Apache Parquet formátumú adathalmazokból és az Apache Spark DataFrame-ként betöltött adathalmazokból való betanítást teszi lehetővé. A Petastorm olyan népszerű képzési keretrendszereket támogat, mint a Tensorflow és a PyTorch.

A Petastormról további információt a Petastorm GitHub oldalán vagy a Petastorm API dokumentációjában talál.

Következő lépések

Ez a cikk áttekintést nyújt a gépi tanulási modellek Apache Spark-készletekben való betanítása különböző lehetőségeiről az Azure Synapse Analyticsben. A modell betanításáról az alábbi oktatóanyagot követve tudhat meg többet:

SparkML-kísérletek futtatása: Apache SparkML-oktatóanyag
Gyorsítsa fel az ETL-számítási feladatokat a RAPIDS használatával: Apache Spark Rapids

Megosztás a következőn keresztül: