Fullständigt skivdelad dataparallell träning (FSDP)

Viktigt!

Den här funktionen finns i Beta.

På den här sidan finns exempel på notebookar för att använda träning med Fully Sharded Data Parallel (FSDP) på serverlös GPU-beräkning. "FSDP" delar modellparametrar, gradienter och optimerar-tillstånd över flertalet GPU:er, vilket möjliggör träning av mycket stora modeller som inte får plats i en enskild GPU:s minne.

När du ska använda FSDP

Använd FSDP när:

  • Din modell är för stor för att få plats i ett enda GPU-minne
  • Du måste träna modeller i parameterintervallet 20B till 120B+
  • Du vill ha mer minneseffektivitet än vad DDP ger

För mindre modeller som passar i ett enda GPU-minne bör du överväga DDP för enkelhetens skull. Avancerade minnesoptimeringsfunktioner finns i DeepSpeed.

Träna en Transformer-modell med 10 miljoner parametrar med hjälp av FSDP2

Följande notebook visar distribuerad träning av en Transformer-modell med 10 miljoner parametrar med FSDP2-biblioteket.

PyTorch FSDP

Hämta anteckningsbok

Träna OpenAI GPT-OSS 120B-modell med TRL och FSDP

Den här notebook-filen visar hur du kör övervakad finjustering (SFT) på en GPT-OSS 120B-modell med hjälp av FSDP2 och biblioteket Transformer Reinforcement Learning (TRL). I det här exemplet används FSDP för att minska minnesförbrukningen och DDP för att skala den globala batchstorleken över 8 H100 GPU:er.

TRL FSDP

Hämta anteckningsbok