Met GPU versnelde Apache Spark-pools in Azure Synapse Analytics (afgeschaft)
Azure Synapse Analytics biedt nu ondersteuning voor Apache Spark-pools die zijn versneld met GPU's (Graphics Processing Units).
Met behulp van NVIDIA GPU's kunnen gegevenswetenschappers en technici de tijd verminderen die nodig is om pijplijnen voor gegevensintegratie uit te voeren, machine learning-modellen te scoren en meer. In dit artikel wordt beschreven hoe gpu-versnelde pools kunnen worden gemaakt en gebruikt met Azure Synapse Analytics. In dit artikel worden ook de GPU-stuurprogramma's en -bibliotheken beschreven die vooraf zijn geïnstalleerd als onderdeel van de gpu-versnelde runtime.
Let op
Melding over afschaffing en uitschakeling voor GPU's in de Azure Synapse Runtime voor Apache Spark 3.1 en 3.2
- De versnelde preview-versie van GPU is nu afgeschaft in de Apache Spark 3.2-runtime (afgeschaft). Afgeschafte runtimes hebben geen bug- en functiecorrecties. Deze runtime en de bijbehorende gpu versnelde preview op Spark 3.2 zijn vanaf 8 juli 2024 buiten gebruik gesteld en uitgeschakeld.
- De versnelde preview-versie van GPU is nu afgeschaft in de Runtime van Azure Synapse 3.1 (afgeschaft). Azure Synapse Runtime voor Apache Spark 3.1 heeft het einde van de ondersteuning bereikt vanaf 26 januari 2023, waarbij officiële ondersteuning vanaf 26 januari 2024 is stopgezet en geen verdere adressering van ondersteuningstickets, bugfixes of beveiligingsupdates meer dan deze datum.
Notitie
Preview-versie van Azure Synapse GPU is nu afgeschaft.
Een gpu-versnelde pool maken
Om het proces voor het maken en beheren van pools te vereenvoudigen, zorgt Azure Synapse voor het vooraf installeren van bibliotheken op laag niveau en het instellen van alle complexe netwerkvereisten tussen rekenknooppunten. Met deze integratie kunnen gebruikers binnen een paar minuten aan de slag met GPU-versnelde pools.
Notitie
- Gpu-versnelde pools kunnen worden gemaakt in werkruimten in VS - oost, Australië - oost en Europa - noord.
- Gpu-versnelde pools zijn alleen beschikbaar met de Apache Spark 3-runtime.
Gpu-versnelde runtime
NVIDIA GPU-stuurprogramma, CUDA en cuDNN
Azure Synapse Analytics biedt nu gpu-versnelde Apache Spark-pools, waaronder verschillende NVIDIA-bibliotheken en -configuraties. Azure Synapse Analytics installeert standaard het NVIDIA-stuurprogramma en de bibliotheken die zijn vereist voor het gebruik van GPU's op Spark-stuurprogramma- en werkrolinstanties:
- CUDA 11.2
- libnccl2=2.8.4
- libnccl-dev=2.8.4
- libcudnn8=8.1.1
- libcudnn8-dev=8.1.1
Notitie
Deze software bevat broncode die wordt geleverd door NVIDIA Corporation. Om de gpu-versnelde pools te ondersteunen, bevatten Azure Synapse Apache Spark-pools code uit CUDA-voorbeelden.
NVIDIA-gebruiksrechtovereenkomst (EULA)
Wanneer u een hardwareoptie met GPU-versnelling selecteert in Synapse Spark, gaat u impliciet akkoord met de voorwaarden die worden beschreven in de NVIDIA EULA met betrekking tot:
- CUDA 11.2: EULA :: CUDA Toolkit Documentation (nvidia.com)
- libnccl2=2.8.4: nccl/LICENSE.txt bij master · NVIDIA/nccl (github.com)
- libnccl-dev=2.8.4: nccl/LICENSE.txt bij master · NVIDIA/nccl (github.com)
- libcudnn8=8.1.1: Softwarelicentieovereenkomst :: NVIDIA Deep Learning cuDNN-documentatie
- libcudn8-dev=8.1.1: Softwarelicentieovereenkomst :: NVIDIA Deep Learning cuDNN-documentatie
- De bibliotheken CUDA, NCCL en cuDNN en de NVIDIA-gebruiksrechtovereenkomst (met NCCL-supplement) voor de NCCL-bibliotheek
ETL-workloads versnellen
Met ingebouwde ondersteuning voor NVIDIA's RAPIDS Accelerator voor Apache Spark kunnen GPU-versnelde Spark-pools in Azure Synapse aanzienlijke prestatieverbeteringen bieden in vergelijking met standaard analytische benchmarks zonder dat er codewijzigingen nodig zijn. Dit pakket is gebouwd op NVIDIA CUDA en UCX en maakt GPU-versnelde SQL-, DataFrame-bewerkingen en Spark shuffles mogelijk. Omdat er geen codewijzigingen nodig zijn om gebruik te maken van deze versnellingen, kunnen gebruikers ook hun gegevenspijplijnen versnellen die afhankelijk zijn van delta lake van Linux Foundation of de Hyperspace-indexering van Microsoft.
Voor meer informatie over hoe u de NVIDIA RAPIDS Accelerator kunt gebruiken met uw GPU-versnelde pool in Azure Synapse Analytics, gaat u naar deze handleiding voor het verbeteren van de prestaties met RAPIDS.
Deep Learning-modellen trainen
Deep Learning-modellen zijn vaak gegevens en rekenintensief. Daarom versnellen organisaties vaak hun trainingsproces met clusters met GPU. In Azure Synapse Analytics kunnen organisaties modellen bouwen met behulp van frameworks zoals Tensorflow en PyTorch. Vervolgens kunnen gebruikers hun Deep Learning-modellen omhoog schalen met Horovod en Petastorm.
Voor meer informatie over hoe u gedistribueerde Deep Learning-modellen kunt trainen, gaat u naar de volgende handleidingen: - Zelfstudie: Gedistribueerde training met Horovod en Tensorflow - Tutorial: Gedistribueerde training met Horovod en PyTorch
Machine learning-scoreworkloads verbeteren
Veel organisaties zijn afhankelijk van grote batchgewijs scoretaken om regelmatig uit te voeren tijdens smalle vensters van tijd. Als u verbeterde batchscoretaken wilt bereiken, kunt u ook GPU-versnelde Spark-pools gebruiken met de Hummingbird-bibliotheek van Microsoft. Met Hummingbird kunnen gebruikers traditionele, boomgebaseerde ML-modellen nemen en compileren in tensor-berekeningen. Hummingbird stelt gebruikers in staat om vervolgens naadloos gebruik te maken van systeemeigen hardwareversnelling- en neurale netwerkframeworks om hun ML-modelscore te versnellen zonder dat ze hun modellen hoeven te herschrijven.