Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.
Cette page contient des exemples de notebooks pour utiliser l'entraînement Distributed Data Parallel (DDP) sur des ressources de calcul GPU sans serveur. DDP est la technique de parallélisme la plus courante pour l’apprentissage distribué, où le modèle complet est répliqué sur chaque GPU et les lots de données sont divisés entre les GPU.
Quand utiliser DDP
Utilisez DDP quand :
- Votre modèle s’adapte complètement à la mémoire d’un seul GPU
- Vous souhaitez mettre à l’échelle l’entraînement en augmentant le débit des données
- Vous avez besoin de l’approche de formation distribuée la plus simple avec prise en charge automatique dans la plupart des frameworks
Pour les modèles plus volumineux qui ne tiennent pas dans une seule mémoire GPU, envisagez plutôt FSDP ou DeepSpeed .
Formation d’un réseau neuronal de perceptron multicouche simple à l’aide de PyTorch DDP
Le notebook suivant démontre l'apprentissage distribué d'un réseau de neurones multicouche (MLP) simple à l'aide du module DDP de PyTorch sur Azure Databricks avec des ressources GPU sans serveur.
PyTorch DDP
Obtenir un ordinateur portable
Entraînement du modèle GPT-OSS 20B d'OpenAI sur 8xH100 avec TRL et DDP
Ce notebook montre comment utiliser l'API Python GPU Serverless pour exécuter un réglage fin supervisé (SFT) sur le modèle GPT-OSS 20B de Hugging Face en utilisant la bibliothèque TRL (Transformer Reinforcement Learning). Cet exemple utilise DDP sur les 8 GPU H100 du nœud pour étendre la taille globale de la mini-série.
TRL DDP
Obtenir un ordinateur portable
Optimisation distribuée de Llama 3.2 3B utilisant Unsloth
Ce notebook démontre comment utiliser l’API Python GPU serverless pour ajuster un modèle Llama 3.2 3B avec la bibliothèque Unsloth sur 8 GPU A10. Unsloth fournit des optimisations d’entraînement efficaces en mémoire et utilise DDP sous le capot via Hugging Face Accelerate.
Déloyez le DDP
Obtenir un ordinateur portable
Optimisation distribuée d’Olmo3 7B à l’aide d’Axolotl
Ce notebook montre comment utiliser l’API Python Serverless GPU pour affiner un modèle Olmo3 7B avec la bibliothèque Axolotl sur 16 GPU H100. Axolotl est conçu pour simplifier la post-formation et l’optimisation des dernières machines virtuelles.
Axolotl DDP
Obtenir un ordinateur portable
Ajustement fin distribué de Llama 3.2 8B à l’aide de Mosaic LLM Foundry
Ce notebook montre comment utiliser l'API Python Serverless GPU pour ajuster un modèle Llama 3.2 8B avec la bibliothèque Mosaic LLM Foundry sur un total de 16 GPU A10. Mosaïque LLM Foundry offre des API faciles à utiliser, efficaces et flexibles pour entraîner des modèles de langage volumineux.
Notebook
Obtenir un ordinateur portable
Formation distribuée à l’aide de Ray Train (vision par ordinateur)
Ce notebook illustre l’apprentissage distribué d’un modèle PyTorch ResNet sur le jeu de données FashionMNIST à l’aide de Ray Train et Ray Data sur des clusters GPU Serverless Databricks. Ray Train fournit une orchestration de formation distribuée de haut niveau et utilise DDP comme stratégie de parallélisme sous-jacente. Cet exemple décrit la configuration du stockage catalogue Unity, la configuration de Ray pour l’entraînement GPU à plusieurs nœuds, la journalisation et l’inscription de modèles avec MLflow et l’évaluation des performances des modèles.
Ray DDP
Obtenir un ordinateur portable
Formation d’un système de recommandation à deux colonnes à l’aide de PyTorch Lightning
Ce notebook montre comment entraîner un modèle de recommandation à deux tours à l’aide de PyTorch Lightning sur le calcul GPU sans serveur. PyTorch Lightning fournit une interface de haut niveau qui gère automatiquement la configuration DDP pour l’entraînement multi-GPU. L’exemple inclut la préparation des données au format Mosaic Streaming (MDS) et l’entraînement distribué entre les GPU A10 ou H100.
Consultez la page des exemples de recommandations d’apprentissage profond pour les blocs-notes complets, notamment :
- Préparation des données et conversion de format MDS
- Entraînement de recommandation à deux tours avec PyTorch Lightning