Mély tanulás (előzetes verzió)

Az Azure Synapse Analyticsben futó Apache Spark lehetővé teszi a big data-alapú gépi tanulást, így értékes megállapításokat kaphat nagy mennyiségű strukturált, strukturálatlan és gyorsan mozgó adatból. Az Azure Synapse Analyticsben az Azure Sparkot használó gépi tanulási modellek betanítására több lehetőség is van: Apache Spark MLlib, Azure Machine Tanulás és más nyílt forráskódú kódtárak.

Figyelmeztetés

  • A GPU gyorsított előzetes verziója az Apache Spark 3.2 (Támogatás megszűnése bejelentett) futtatókörnyezetre korlátozódik. Az Apache Spark 3.2-hez készült Azure Synapse Runtime támogatásának megszűnését 2023. július 8-án jelentették be. A támogatás megszűnéséről bejelentett futtatókörnyezetek nem rendelkeznek hiba- és funkciójavításokkal. A biztonsági javítások a kockázatértékelés alapján kerülnek visszaportolásra. Ez a futtatókörnyezet és a megfelelő GPU gyorsított előzetes verziója a Spark 3.2-ben 2024. július 8-ától megszűnik és le lesz tiltva.
  • A GPU gyorsított előzetes verziója mostantól nem támogatott az Azure Synapse 3.1 (nem támogatott) futtatókörnyezetben. Az Apache Spark 3.1-hez készült Azure Synapse Runtime 2023. január 26-tól megszűnt, a hivatalos támogatás 2024. január 26-tól megszűnt, és a támogatási jegyek, hibajavítások és biztonsági frissítések kezelése ezen a napon túl nem történt meg.

GPU-kompatibilis Apache Spark-készletek

A készletek létrehozásának és kezelésének egyszerűsítése érdekében az Azure Synapse gondoskodik az alacsony szintű kódtárak előzetes telepítéséről és a számítási csomópontok közötti összetett hálózati követelmények beállításáról. Ez az integráció lehetővé teszi a felhasználók számára, hogy néhány percen belül megkezdődjenek a GPU-gyorsított készletek használatában.

Feljegyzés

  • A GPU-gyorsított készletek az USA keleti régiójában, Kelet-Ausztráliában és Észak-Európában található munkaterületeken hozhatók létre.
  • A GPU-gyorsított készletek csak az Apache Spark 3.1 (nem támogatott) és a 3.2-s futtatókörnyezettel érhetők el.
  • Előfordulhat, hogy a GPU-kompatibilis fürtök létrehozásához korlátnövelést kell kérnie.

GPU ML-környezet

Az Azure Synapse Analytics beépített támogatást nyújt a mély tanulási infrastruktúrához. Az Apache Spark 3 Azure Synapse Analytics-futtatókörnyezetei támogatják a leggyakoribb mélytanulási kódtárakat, például a TensorFlow-t és a PyTorch-t. Az Azure Synapse futtatókörnyezet olyan támogató kódtárakat is tartalmaz, mint a Petastorm és a Horovod, amelyeket gyakran használnak elosztott betanításokhoz.

Tensorflow

A TensorFlow egy nyílt forráskód gépi tanulási keretrendszer minden fejlesztő számára. Gépi tanulási és mélytanulási alkalmazások implementálásához használják.

A Tensorflow-ról további információt a Tensorflow API dokumentációjában talál.

PyTorch

A PyTorch egy optimalizált tensor-kódtár a GPU-k és CPU-k használatával végzett mély tanuláshoz.

A PyTorchról további információt a PyTorch dokumentációjában talál.

Horovod

A Horovod a TensorFlow, a Keras és a PyTorch elosztott mélytanulási keretrendszere. A Horovodot úgy fejlesztették ki, hogy az elosztott mély tanulás gyors és könnyen használható legyen. Ezzel a keretrendszerrel egy meglévő betanítási szkript felskálázható úgy, hogy több száz GPU-n fusson néhány sornyi kódban. A Horovod emellett az Apache Sparkon is futtatható, így egyetlen folyamatba egyesítheti az adatfeldolgozást és a modell betanítását.

Ha többet szeretne megtudni arról, hogyan futtathat elosztott betanítási feladatokat az Azure Synapse Analyticsben, látogasson el a következő oktatóanyagokra: – Oktatóanyag: Elosztott betanítás a Horovod és a PyTorch - oktatóanyaggal: Elosztott betanítás a Horovod és a Tensorflow használatával

A Horovodról további információt a Horovod dokumentációjában talál.

Petastorm

A Petastorm egy nyílt forráskód adatelérési kódtár, amely lehetővé teszi a mélytanulási modellek egycsomópontos vagy elosztott betanítását. Ez a kódtár közvetlenül az Apache Parquet formátumú adathalmazokból és az Apache Spark DataFrame-ként betöltött adathalmazokból való betanítást teszi lehetővé. A Petastorm olyan népszerű képzési keretrendszereket támogat, mint a Tensorflow és a PyTorch.

A Petastormról további információt a Petastorm GitHub oldalán vagy a Petastorm API dokumentációjában talál.

Következő lépések

Ez a cikk áttekintést nyújt a gépi tanulási modellek Apache Spark-készletekben való betanítása különböző lehetőségeiről az Azure Synapse Analyticsben. A modell betanításáról az alábbi oktatóanyagot követve tudhat meg többet: