Deep Learning (afgeschaft)
Apache Spark in Azure Synapse Analytics maakt machine learning mogelijk met big data, waardoor u waardevolle inzichten kunt verkrijgen uit grote hoeveelheden gestructureerde, ongestructureerde en snel veranderende gegevens. Er zijn verschillende opties voor het trainen van machine learning-modellen met behulp van Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning en verschillende andere opensource-bibliotheken.
Notitie
De preview voor azure Synapse GPU-pools is nu afgeschaft.
Let op
Melding over afschaffing en uitschakeling voor GPU's in de Azure Synapse Runtime voor Apache Spark 3.1 en 3.2
- De versnelde preview-versie van GPU is nu afgeschaft in de Apache Spark 3.2-runtime (afgeschaft). Afgeschafte runtimes hebben geen bug- en functiecorrecties. Deze runtime en de bijbehorende gpu versnelde preview op Spark 3.2 zijn vanaf 8 juli 2024 buiten gebruik gesteld en uitgeschakeld.
- De versnelde preview-versie van GPU is nu afgeschaft in de Runtime van Azure Synapse 3.1 (afgeschaft). Azure Synapse Runtime voor Apache Spark 3.1 heeft het einde van de ondersteuning bereikt vanaf 26 januari 2023, waarbij officiële ondersteuning vanaf 26 januari 2024 is stopgezet en geen verdere adressering van ondersteuningstickets, bugfixes of beveiligingsupdates meer dan deze datum.
Apache Spark-pools met GPU
Om het proces voor het maken en beheren van pools te vereenvoudigen, zorgt Azure Synapse voor het vooraf installeren van bibliotheken op laag niveau en het instellen van alle complexe netwerkvereisten tussen rekenknooppunten. Met deze integratie kunnen gebruikers binnen een paar minuten aan de slag met GPU-versnelde pools.
Notitie
- Gpu-versnelde pools kunnen worden gemaakt in werkruimten in VS - oost, Australië - oost en Europa - noord.
- Gpu-versnelde pools zijn alleen beschikbaar met de Apache Spark 3.1 (afgeschaft) en 3.2-runtime (afgeschaft).
- Mogelijk moet u een limietverhoging aanvragen om clusters met GPU te kunnen maken.
GPU ML-omgeving
Azure Synapse Analytics biedt ingebouwde ondersteuning voor deep learning-infrastructuur. De Azure Synapse Analytics-runtimes voor Apache Spark 3 bevatten ondersteuning voor de meest voorkomende Deep Learning-bibliotheken, zoals TensorFlow en PyTorch. De Azure Synapse-runtime bevat ook ondersteunende bibliotheken zoals Petastorm en Horovod die vaak worden gebruikt voor gedistribueerde training.
Tensorflow
TensorFlow is een opensource-framework voor machine learning voor alle ontwikkelaars. Het wordt gebruikt voor het implementeren van machine learning- en Deep Learning-toepassingen.
Voor meer informatie over Tensorflow kunt u de Documentatie van de Tensorflow-API raadplegen.
PyTorch
PyTorch is een geoptimaliseerde tensor-bibliotheek voor deep learning met behulp van GPU's en CPU's.
Raadpleeg de PyTorch-documentatie voor meer informatie over PyTorch.
Horovod
Horovod is een gedistribueerd deep learning-trainingsframework voor TensorFlow, Keras en PyTorch. Horovod is ontwikkeld om gedistribueerde deep learning snel en gebruiksvriendelijk te maken. Met dit framework kan een bestaand trainingsscript worden opgeschaald om te worden uitgevoerd op honderden GPU's in slechts een paar regels code. Daarnaast kan Horovod worden uitgevoerd op Apache Spark, waardoor het mogelijk is om gegevensverwerking en modeltraining te combineren in één pijplijn.
Voor meer informatie over het uitvoeren van gedistribueerde trainingstaken in Azure Synapse Analytics, kunt u de volgende zelfstudies bezoeken: - Zelfstudie: Gedistribueerde training met Horovod en PyTorch - Tutorial: Gedistribueerde training met Horovod en Tensorflow
Voor meer informatie over Horovod, kunt u de Horovod documentatie bezoeken,
Petastorm
Petastorm is een opensource-bibliotheek voor gegevenstoegang waarmee u met één knooppunt of gedistribueerde training van Deep Learning-modellen kunt trainen. Met deze bibliotheek kunt u rechtstreeks vanuit gegevenssets in Apache Parquet-indeling en gegevenssets trainen die al zijn geladen als een Apache Spark DataFrame. Petastorm ondersteunt populaire trainingsframeworks zoals Tensorflow en PyTorch.
Voor meer informatie over Petastorm kunt u de Petastorm GitHub-pagina of de Petastorm API-documentatie bezoeken.
Volgende stappen
Dit artikel bevat een overzicht van de verschillende opties voor het trainen van machine learning-modellen in Apache Spark-pools in Azure Synapse Analytics. U vindt meer informatie over modeltraining door de onderstaande zelfstudie te volgen:
- SparkML-experimenten uitvoeren: Apache SparkML-zelfstudie
- ETL-workloads versnellen met RAPIDS: Apache Spark Rapids