Partage via


Grands modèles de langage (LLMs)

Important

AI Runtime pour les tâches à nœud unique est disponible en préversion publique. L’API d’entraînement distribuée pour les charges de travail multi-GPU reste en version bêta.

Cette page fournit des exemples de notebooks pour affiner les modèles de langage volumineux (LLMs) à l’aide d’AI Runtime. Ces exemples illustrent différentes approches du réglage précis, notamment des méthodes efficaces en paramètres telles que Low-Rank Adaptation (LoRA) et un réglage complet supervisé.

Tutoriel Description
Ajuster le modèle Qwen2-0.5B Ajustez efficacement le modèle Qwen2-0.5B à l’aide de l’apprentissage par renforcement de transformateur (TRL), des noyaux Liger pour l’apprentissage efficace de la mémoire et loRA pour le réglage précis des paramètres.
Affiner Llama-3.2-3B avec Unsloth Ajustez Llama-3.2-3B à l’aide de la bibliothèque Unsloth.
Réglage fin supervisé à l’aide de DeepSpeed et TRL Utilisez l’API Python gpu serverless pour exécuter un réglage précis supervisé (SFT) à l’aide de la bibliothèque TRL (Transformer Reinforcement Learning) avec l’optimisation DeepSpeed ZeRO Stage 3.
Réglage précis de LORA à l’aide d’Axolotl Utilisez l’API Python GPU sans serveur pour LORA ajuster un modèle Olmo3 7B à l’aide de la bibliothèque Axolotl.

Vidéo de démonstration

Cette vidéo présente en détail le bloc-notes d'exemple Fine-tune Llama-3.2-3B avec Unsloth (12 minutes).