Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns i Beta.
På den här sidan finns exempel på notebookar för att använda träning med Fully Sharded Data Parallel (FSDP) på serverlös GPU-beräkning. "FSDP" delar modellparametrar, gradienter och optimerar-tillstånd över flertalet GPU:er, vilket möjliggör träning av mycket stora modeller som inte får plats i en enskild GPU:s minne.
När du ska använda FSDP
Använd FSDP när:
- Din modell är för stor för att få plats i ett enda GPU-minne
- Du måste träna modeller i parameterintervallet 20B till 120B+
- Du vill ha mer minneseffektivitet än vad DDP ger
För mindre modeller som passar i ett enda GPU-minne bör du överväga DDP för enkelhetens skull. Avancerade minnesoptimeringsfunktioner finns i DeepSpeed.
Träna en Transformer-modell med 10 miljoner parametrar med hjälp av FSDP2
Följande notebook visar distribuerad träning av en Transformer-modell med 10 miljoner parametrar med FSDP2-biblioteket.
PyTorch FSDP
Träna OpenAI GPT-OSS 120B-modell med TRL och FSDP
Den här notebook-filen visar hur du kör övervakad finjustering (SFT) på en GPT-OSS 120B-modell med hjälp av FSDP2 och biblioteket Transformer Reinforcement Learning (TRL). I det här exemplet används FSDP för att minska minnesförbrukningen och DDP för att skala den globala batchstorleken över 8 H100 GPU:er.