Entraînement distribué multi-GPU

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page contient des exemples de notebooks pour l’entraînement distribué multi-GPU à l’aide d’AI Runtime. Ces exemples montrent comment mettre à l’échelle l’entraînement sur plusieurs GPU et nœuds pour améliorer les performances.

Note

L’entraînement distribué multi-GPU est pris en charge sur les GPU H100.

Choisir votre technique de parallélisme

Lors de la mise à l’échelle de votre entraînement de modèle sur plusieurs GPU, le choix de la bonne technique de parallélisme dépend de la taille de votre modèle, de la mémoire GPU disponible et des exigences de performances.

Technique	Quand utiliser
DDP (Distributed Data Parallel)	Le modèle complet s’adapte à une seule mémoire GPU ; besoin de mettre à l’échelle le débit des données
FSDP (Parallelisation de données entièrement fragmentées)	Très grands modèles qui ne peuvent pas tenir dans la mémoire d'un seul GPU
DeepSpeed ZeRO	Modèles volumineux avec des besoins avancés d’optimisation de la mémoire

Pour plus d’informations sur chaque technique, consultez DDP, FSDP et DeepSpeed.

Exemples de notebooks par technique et infrastructure

Le tableau suivant organise les exemples de notebooks par l’infrastructure/bibliothèque que vous utilisez et la technique de parallélisme appliquée. Plusieurs blocs-notes peuvent apparaître dans une seule cellule.

Framework/Bibliothèque	Exemples DDP	Exemples FSDP	Exemples DeepSpeed
PyTorch (natif)	Réseau neuronal MLP simple Détection d’image RetinaNet	Transformateur de paramètre 10M	—
Liste de révocation de certificats de huggingface	Ajuster le gpt OSS 20B	Ajuster le gpt OSS 120B	Ajuster Llama 3.2 1B
Déloyez	Ajuster Llama 3.2 3B	—	—
Axolotl	Optimiser le réglage d'Olmo3 7B	—	—
Mosaïque LLM Foundry	Ajuster Llama 3.2 8B	—	—
Éclair	Système de recommandation à deux tours	—	—

Get started

Utilisez les didacticiels suivants pour commencer à utiliser la bibliothèque Python GPU serverless pour l’entraînement distribué :

Tutoriel	Description
Runtime IA avec GPUs H100	Découvrez comment utiliser Databricks AI Runtime avec des accélérateurs H100 pour exécuter des charges de travail GPU distribuées à l’aide de la bibliothèque Python serverless_gpu.

Commentaires

Est-ce que cette page vous a été utile?

Last updated on 2026-03-21