Partager via


Entraînement en parallèle de données totalement fragmentées (FSDP)

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page contient des exemples de notebooks pour l’utilisation de l’entraînement FSDP (Fully Sharded Data Parallel) sur le calcul GPU serverless. FSDP distribue les paramètres du modèle, les gradients, et les états de l’optimiseur sur plusieurs GPU, permettant l’apprentissage de modèles très volumineux qui ne tiendraient pas dans la mémoire d'un seul GPU.

Quand utiliser FSDP

Utilisez FSDP quand :

  • Votre modèle est trop grand pour s’adapter à la mémoire d’un seul GPU
  • Vous devez entraîner des modèles dans la plage de paramètres 20B à 120B+
  • Vous souhaitez une efficacité de la mémoire supérieure à ce qu’offre DDP

Pour les modèles plus petits qui s’adaptent à une seule mémoire GPU, envisagez DDP pour plus de simplicité. Pour connaître les fonctionnalités avancées d’optimisation de la mémoire, consultez DeepSpeed.

Formation d’un modèle transformateur avec 10 millions de paramètres à l’aide de FSDP2

Le notebook suivant illustre l'apprentissage d'un modèle Transformer de 10-millions de paramètres distribué à l’aide de la bibliothèque FSDP2.

PyTorch FSDP

Obtenir un ordinateur portable

Entraînement du modèle 120B OpenAI GPT-OSS à l'aide de TRL et FSDP

Ce notebook montre comment exécuter un réglage précis supervisé (SFT) sur un modèle GPT-OSS 120B à l’aide de FSDP2 et de la bibliothèque TRL (Transformer Reinforcement Learning). Cet exemple utilise FSDP pour réduire la consommation de mémoire et DDP pour augmenter la taille globale des lots sur 8 GPU H100.

TRL FSDP

Obtenir un ordinateur portable