Partager via


Entraînement distribué à l’aide de DeepSpeed

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page contient des exemples de notebooks pour l’entraînement distribué à l’aide de DeepSpeed sur le calcul GPU sans serveur. DeepSpeed fournit des techniques avancées d’optimisation de la mémoire par le biais de ses étapes ZeRO (Optimiseur de redondance zéro), ce qui permet une formation efficace des grands modèles.

Quand utiliser DeepSpeed

Utilisez DeepSpeed quand :

  • Vous avez besoin d’optimisation avancée de la mémoire au-delà du FSDP standard
  • Vous souhaitez un contrôle précis sur le partitionnement de l’état de l’optimiseur (ZeRO Stage 1, 2 ou 3)
  • Vous avez besoin de fonctionnalités supplémentaires telles que la fusion d'accumulation des gradients ou le déchargement sur le processeur.
  • Vous travaillez avec des modèles de langage de grande taille (1 milliard à plus de 100 milliards de paramètres)

Pour des cas d’usage plus simples, envisagez DDP. Pour l’entraînement de modèle volumineux natif pyTorch, consultez FSDP.

Réglage précis supervisé à l’aide de la TRL et de DeepSpeed ZeRO Stage 3

Ce notebook montre comment utiliser l’API Python Serverless GPU pour effectuer un affinage supervisé (SFT) à l’aide de la bibliothèque Transformer Reinforcement Learning (TRL) avec l’optimisation DeepSpeed ZeRO Stage 3 sur un nœud unique A10 GPU. Cette approche peut être étendue aux configurations à plusieurs nœuds.

TRL DeepSpeed

Obtenir un ordinateur portable