Partager via


Formation DDP (Distributed Data Parallel)

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page contient des exemples de notebooks pour utiliser l'entraînement Distributed Data Parallel (DDP) sur des ressources de calcul GPU sans serveur. DDP est la technique de parallélisme la plus courante pour l’apprentissage distribué, où le modèle complet est répliqué sur chaque GPU et les lots de données sont divisés entre les GPU.

Quand utiliser DDP

Utilisez DDP quand :

  • Votre modèle s’adapte complètement à la mémoire d’un seul GPU
  • Vous souhaitez mettre à l’échelle l’entraînement en augmentant le débit des données
  • Vous avez besoin de l’approche de formation distribuée la plus simple avec prise en charge automatique dans la plupart des frameworks

Pour les modèles plus volumineux qui ne tiennent pas dans une seule mémoire GPU, envisagez plutôt FSDP ou DeepSpeed .

Formation d’un réseau neuronal de perceptron multicouche simple à l’aide de PyTorch DDP

Le notebook suivant démontre l'apprentissage distribué d'un réseau de neurones multicouche (MLP) simple à l'aide du module DDP de PyTorch sur Azure Databricks avec des ressources GPU sans serveur.

PyTorch DDP

Obtenir un ordinateur portable

Entraînement du modèle GPT-OSS 20B d'OpenAI sur 8xH100 avec TRL et DDP

Ce notebook montre comment utiliser l'API Python GPU Serverless pour exécuter un réglage fin supervisé (SFT) sur le modèle GPT-OSS 20B de Hugging Face en utilisant la bibliothèque TRL (Transformer Reinforcement Learning). Cet exemple utilise DDP sur les 8 GPU H100 du nœud pour étendre la taille globale de la mini-série.

TRL DDP

Obtenir un ordinateur portable

Optimisation distribuée de Llama 3.2 3B utilisant Unsloth

Ce notebook démontre comment utiliser l’API Python GPU serverless pour ajuster un modèle Llama 3.2 3B avec la bibliothèque Unsloth sur 8 GPU A10. Unsloth fournit des optimisations d’entraînement efficaces en mémoire et utilise DDP sous le capot via Hugging Face Accelerate.

Déloyez le DDP

Obtenir un ordinateur portable

Optimisation distribuée d’Olmo3 7B à l’aide d’Axolotl

Ce notebook montre comment utiliser l’API Python Serverless GPU pour affiner un modèle Olmo3 7B avec la bibliothèque Axolotl sur 16 GPU H100. Axolotl est conçu pour simplifier la post-formation et l’optimisation des dernières machines virtuelles.

Axolotl DDP

Obtenir un ordinateur portable

Ajustement fin distribué de Llama 3.2 8B à l’aide de Mosaic LLM Foundry

Ce notebook montre comment utiliser l'API Python Serverless GPU pour ajuster un modèle Llama 3.2 8B avec la bibliothèque Mosaic LLM Foundry sur un total de 16 GPU A10. Mosaïque LLM Foundry offre des API faciles à utiliser, efficaces et flexibles pour entraîner des modèles de langage volumineux.

Notebook

Obtenir un ordinateur portable

Formation distribuée à l’aide de Ray Train (vision par ordinateur)

Ce notebook illustre l’apprentissage distribué d’un modèle PyTorch ResNet sur le jeu de données FashionMNIST à l’aide de Ray Train et Ray Data sur des clusters GPU Serverless Databricks. Ray Train fournit une orchestration de formation distribuée de haut niveau et utilise DDP comme stratégie de parallélisme sous-jacente. Cet exemple décrit la configuration du stockage catalogue Unity, la configuration de Ray pour l’entraînement GPU à plusieurs nœuds, la journalisation et l’inscription de modèles avec MLflow et l’évaluation des performances des modèles.

Ray DDP

Obtenir un ordinateur portable

Formation d’un système de recommandation à deux colonnes à l’aide de PyTorch Lightning

Ce notebook montre comment entraîner un modèle de recommandation à deux tours à l’aide de PyTorch Lightning sur le calcul GPU sans serveur. PyTorch Lightning fournit une interface de haut niveau qui gère automatiquement la configuration DDP pour l’entraînement multi-GPU. L’exemple inclut la préparation des données au format Mosaic Streaming (MDS) et l’entraînement distribué entre les GPU A10 ou H100.

Consultez la page des exemples de recommandations d’apprentissage profond pour les blocs-notes complets, notamment :

  • Préparation des données et conversion de format MDS
  • Entraînement de recommandation à deux tours avec PyTorch Lightning