Deep Learning (déconseillé)

Article
07/22/2024

Apache Spark dans Azure Synapse Analytics permet l’apprentissage automatique avec le Big Data, en offrant la possibilité d’extraire de précieuses informations de grandes quantités de données structurées, non structurées et à déplacement rapide. Il existe plusieurs options pour effectuer l’apprentissage de modèles Machine Learning à l’aide d’Azure Spark dans Azure Synapse Analytics : Apache Spark MLlib, Azure Machine Learning et diverses autres bibliothèques open source.

Remarque

La préversion pour les pools Azure Synapse avec GPU est désormais déconseillée.

Attention

Notification de dépréciation et de désactivation des GPU sur le Runtime Azure Synapse pour Apache Spark 3.1 et 3.2

La préversion accélérée par GPU est désormais déconseillée sur le runtime Apache Spark 3.2 (déconseillé). Les runtimes déconseillés ne vont pas bénéficier de corrections de bogues et de fonctionnalités. Ce runtime, ainsi que la préversion correspondante accélérée par le GPU sur Spark 3.2 ont été retirés et désactivés depuis le 8 juillet 2024.
La préversion accélérée par le GPU est désormais déconseillée sur runtime Azure Synapse 3.1 (déconseillé). Azure Synapse Runtime pour Apache Spark 3.1 a atteint sa fin de support le 26 janvier 2023, le support officiel étant interrompu à compter du 26 janvier 2024 et aucune autre réponse aux tickets de support, aux corrections de bogues ou aux mises à jour de sécurité au-delà de cette date.

Pools Apache Spark avec processeur graphique (GPU)

Pour simplifier le processus de création et de gestion des pools, Azure Synapse s’occupe de la préinstallation des bibliothèques de bas niveau et de la configuration de toutes les exigences réseau complexes entre les nœuds de calcul. Cette intégration permet aux utilisateurs de bien démarrer avec les pools accélérés par GPU en quelques minutes.

Remarque

Vous pouvez créer des pools accélérés par GPU dans des espaces de travail situés dans les régions USA Est, Australie Est et Europe Nord.
Les pools accélérés par GPU sont disponibles uniquement avec les runtime Apache Spark 3.1 (déconseillé) et 3.2 (déconseillé).
Vous pouvez avoir besoin de demander une augmentation de limite afin de créer des clusters compatibles GPU.

Environnement de ML avec GPU

Azure Synapse Analytics garantit une prise en charge intégrée de l’infrastructure d’apprentissage profond. Les runtimes Azure Synapse Analytics pour Apache Spark 3 incluent la prise en charge des bibliothèques d’apprentissage profond les plus courantes comme TensorFlow et PyTorch. Le runtime Azure Synapse inclut également des bibliothèques de prise en charge telles que Petastorm et Horovod qui sont couramment utilisées pour l’entraînement distribué.

Tensorflow

TensorFlow est une infrastructure d’apprentissage automatique open source pour tous les développeurs. Il est utilisé pour implémenter des applications de Machine Learning et de Deep Learning.

Pour plus d’informations sur Tensorflow, vous pouvez consulter la documentation sur l’API Tensorflow.

PyTorch

PyTorch est une bibliothèque de tenseur optimisée pour le Deep Learning à l’aide de GPU et de processeurs.

Pour plus d’informations sur PyTorch, consultez la documentation sur PyTorch.

Horovod

Horovod est un framework d’entraînement de Deep Learning distribué pour TensorFlow, Keras et PyTorch. Horovod a été développé pour rendre l’apprentissage profond distribué rapide et facile à utiliser. Avec cette infrastructure, un script d’entraînement existant peut être mis à l’échelle pour s’exécuter sur des centaines de GPU en quelques lignes de code. En outre, Horovod peut s’exécuter sur Apache Spark, ce qui permet d’unifier le traitement des données et l’entraînement de modèle dans un seul pipeline.

Pour en savoir plus sur l’exécution de travaux de formation distribués dans Azure Synapse Analytics, vous pouvez consulter les tutoriels suivants : - Tutoriel : Formation dispensée à l’aide de Horovod et PyTorch - Tutoriel : ormation dispensée à l’aide de Horovod et Tensorflow

Pour plus d’informations sur Horovod, vous pouvez consulter la documentation sur Horovod,

Petastorm

Petastorm est une bibliothèque d’accès aux données open source qui permet une formation à nœud unique ou distribuée de modèles de Deep Learning. Cette bibliothèque permet l’apprentissage directement à partir de jeux de données au format Apache Parquet et des jeux de données qui ont été chargés en tant que DataFrame Apache Spark. Petastorm prend en charge des infrastructures d’apprentissage populaires, tels que Tensorflow et PyTorch.

Pour plus d’informations sur Petastorm, vous pouvez consulter la page de GitHub Petastorm ou la documentation de l’API Petastorm.

Étapes suivantes

Cet article fournit une vue d’ensemble des différentes options d’apprentissage des modèles Machine Learning dans les pools Apache Spark dans Azure Synapse Analytics. Vous pouvez en savoir plus sur la formation des modèles en suivant le tutoriel ci-dessous :

Exécuter des expériences SparkML : Tutoriel Apache SparkML
Accélérer les charges de travail ETL avec RAPIDS : Apache Spark Rapids

Partager via