Freigeben über


Deep Learning (veraltet)

Apache Spark in Azure Synapse Analytics ermöglicht maschinelles Lernen mit Big Data und bietet so die Chance, wertvolle Erkenntnisse aus großen Mengen strukturierter, unstrukturierter und sich schnell verändernder Daten zu gewinnen. Beim Trainieren von Machine Learning-Modellen mithilfe von Azure Spark in Azure Synapse Analytics gibt es mehrere Optionen: Apache Spark MLlib, Azure Machine Learning und verschiedene andere Open-Source-Bibliotheken.

Hinweis

Die Vorschau für GPU-fähige Azure Synapse-Pools ist jetzt veraltet.

Achtung

Benachrichtigung zur Einstellung und Deaktivierung für GPUs unter der Azure Synapse-Runtime für Apache Spark 3.1 und 3.2

  • Die Vorschau mit GPU-Beschleunigung ist jetzt für die Apache Spark 3.2-Runtime (veraltet) veraltet. Für veraltete Runtimes werden keine Fehler- und Featurebehebungen mehr bereitgestellt. Diese Runtime und die entsprechende Vorschau mit GPU-Beschleunigung in Spark 3.2 wurden am 8. Juli 2024 eingestellt und deaktiviert.
  • Die Vorschau mit GPU-Beschleunigung ist jetzt für die Azure Synapse 3.1-Runtime (veraltet) veraltet. Azure Synapse Runtime für Apache Spark 3.1 hat am 26. Januar 2023 das Supportende erreicht. Der offizielle Support wurde am 26. Januar 2024 eingestellt, und Supporttickets, Fehlerbehebungen oder Sicherheitsupdates nach diesem Datum werden nicht mehr bearbeitet.

GPU-fähige Apache Spark-Pools

Azure Synapse nimmt Ihnen die Installation untergeordneter Bibliotheken und die Einrichtung aller komplexen Netzwerkanforderungen zwischen Computeknoten ab, um die Erstellung und Verwaltung von Pools zu vereinfachen. Dank dieser Integration können Benutzer innerhalb weniger Minuten mit der Verwendung von Pools mit GPU-Beschleunigung beginnen.

Hinweis

  • Pools mit GPU-Beschleunigung können in Arbeitsbereichen in den Regionen „USA, Osten“, „Australien, Osten“ und „Europa, Norden“ erstellt werden.
  • Pools mit GPU-Beschleunigung sind nur mit den Apache Spark-Runtimes 3.1 (veraltet) und 3.2 (veraltet) verfügbar.
  • Unter Umständen ist eine Erhöhung des Grenzwerts erforderlich, um Cluster mit GPU-Unterstützung erstellen zu können.

GPU-ML-Umgebung

Azure Synapse Analytics bietet integrierte Unterstützung für Deep Learning-Infrastrukturen. Die Azure Synapse Analytics-Runtimes für Apache Spark 3 bieten Unterstützung für die gängigsten Deep Learning-Bibliotheken wie TensorFlow und PyTorch. Die Azure Synapse-Runtime enthält auch unterstützende Bibliotheken wie Petastorm und Horovod, die häufig für verteiltes Training verwendet werden.

Tensorflow

TensorFlow ist ein Open Source-Framework für maschinelles Lernen für alle Entwickler. Es wird für die Implementierung von Machine Learning- und Deep Learning-Anwendungen verwendet.

Weitere Informationen zu Tensorflow finden Sie in der Tensorflow-API-Dokumentation.

PyTorch

PyTorch ist eine optimierte Tensor-Bibliothek für Deep Learning unter Verwendung von GPUs und CPUs.

Weitere Informationen zu PyTorch finden Sie in der PyTorch-Dokumentation.

Horovod

Horovod ist ein Deep Learning-Framework für verteiltes Training für TensorFlow, Keras und PyTorch. Horovod wurde entwickelt, um verteiltes Deep Learning schnell und einfach zu verwenden. Mit diesem Framework lässt sich ein bestehendes Trainingsskript mit nur wenigen Zeilen Code auf Hunderten von GPUs ausführen. Darüber hinaus kann Horovod auf Apache Spark ausgeführt werden, sodass die Datenverarbeitung und das Training von Modellen in einer einzigen Pipeline vereint werden können.

Weitere Informationen zum Ausführen von verteilten Trainingsaufträgen in Azure Synapse Analytics finden Sie in den folgenden Tutorials: - Tutorial: Verteiltes Training mit Horovod und PyTorch - Tutorial: Verteiltes Training mit Horovod und Tensorflow.

Weitere Informationen zu Horovod finden Sie in der Horovod-Dokumentation,

Petastorm

Petastorm ist eine Open Source-Bibliothek für den Zugriff auf Daten, die das Training von Deep Learning-Modellen auf einem oder mehreren Knoten ermöglicht. Diese Bibliothek ermöglicht das Training direkt aus Datasets im Apache Parquet-Format und Datasets, die bereits als Apache Spark-Dataframe geladen wurden. Petastorm unterstützt beliebte Trainingsframeworks wie Tensorflow und PyTorch.

Weitere Informationen zu Petastorm finden Sie auf der GitHub-Seite zu Petastorm oder in der Dokumentation zur Petastorm-API.

Nächste Schritte

Dieser Artikel bietet eine Übersicht über die verschiedenen Optionen zum Trainieren von ML-Modellen innerhalb von Apache Spark-Pools in Azure Synapse Analytics. In den folgenden Tutorials erfahren Sie mehr über das Modelltraining: