Distribuerad träning med DeepSpeed

Viktigt!

Den här funktionen finns i Beta.

Den här sidan innehåller notebook-exempel för distribuerad träning med DeepSpeed på serverlös GPU-beräkning. DeepSpeed tillhandahåller avancerade tekniker för minnesoptimering genom sina ZeRO-faser (Noll redundansoptimerare), vilket möjliggör effektiv träning av stora modeller.

När du ska använda DeepSpeed

Använd DeepSpeed när:

  • Du behöver avancerad minnesoptimering utöver standard-FSDP
  • Du vill ha detaljerad styrning över optimerarens tillståndsuppdelning (ZeRO Steg 1, 2 eller 3)
  • Du behöver ytterligare funktioner som gradientsammanslagningsfusion eller CPU-avlastning
  • Du arbetar med stora språkmodeller (parametrarna 1B till 100B+ )

För enklare användningsfall bör du överväga DDP. Information om PyTorch-inbyggda stora modellträningar finns i FSDP.

Övervakad finjustering med TRL och DeepSpeed ZeRO Steg 3

Den här notebooken visar hur du använder Serverless GPU Python API för att köra övervakad finjustering (SFT) med hjälp av biblioteket Transformer Reinforcement Learning (TRL) med DeepSpeed ZeRO Nivå 3-optimering på en enda nod med en A10 GPU. Den här metoden kan utökas till installationer med flera noder.

TRL DeepSpeed

Hämta anteckningsbok