Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.
Cette page contient des exemples de notebooks pour l’utilisation de l’entraînement FSDP (Fully Sharded Data Parallel) sur le calcul GPU serverless. FSDP distribue les paramètres du modèle, les gradients, et les états de l’optimiseur sur plusieurs GPU, permettant l’apprentissage de modèles très volumineux qui ne tiendraient pas dans la mémoire d'un seul GPU.
Quand utiliser FSDP
Utilisez FSDP quand :
- Votre modèle est trop grand pour s’adapter à la mémoire d’un seul GPU
- Vous devez entraîner des modèles dans la plage de paramètres 20B à 120B+
- Vous souhaitez une efficacité de la mémoire supérieure à ce qu’offre DDP
Pour les modèles plus petits qui s’adaptent à une seule mémoire GPU, envisagez DDP pour plus de simplicité. Pour connaître les fonctionnalités avancées d’optimisation de la mémoire, consultez DeepSpeed.
Formation d’un modèle transformateur avec 10 millions de paramètres à l’aide de FSDP2
Le notebook suivant illustre l'apprentissage d'un modèle Transformer de 10-millions de paramètres distribué à l’aide de la bibliothèque FSDP2.
PyTorch FSDP
Obtenir un ordinateur portable
Entraînement du modèle 120B OpenAI GPT-OSS à l'aide de TRL et FSDP
Ce notebook montre comment exécuter un réglage précis supervisé (SFT) sur un modèle GPT-OSS 120B à l’aide de FSDP2 et de la bibliothèque TRL (Transformer Reinforcement Learning). Cet exemple utilise FSDP pour réduire la consommation de mémoire et DDP pour augmenter la taille globale des lots sur 8 GPU H100.