Distribuerad träning med DeepSpeed

Viktigt!

Den här funktionen finns i Beta.

Den här sidan innehåller notebook-exempel för distribuerad träning med DeepSpeed på serverlös GPU-beräkning. DeepSpeed tillhandahåller avancerade tekniker för minnesoptimering genom sina ZeRO-faser (Noll redundansoptimerare), vilket möjliggör effektiv träning av stora modeller.

När du ska använda DeepSpeed

Använd DeepSpeed när:

Du behöver avancerad minnesoptimering utöver standard-FSDP
Du vill ha detaljerad styrning över optimerarens tillståndsuppdelning (ZeRO Steg 1, 2 eller 3)
Du behöver ytterligare funktioner som gradientsammanslagningsfusion eller CPU-avlastning
Du arbetar med stora språkmodeller (parametrarna 1B till 100B+ )

För enklare användningsfall bör du överväga DDP. Information om PyTorch-inbyggda stora modellträningar finns i FSDP.

Övervakad finjustering med TRL och DeepSpeed ZeRO Steg 3

Den här notebooken visar hur du använder Serverless GPU Python API för att köra övervakad finjustering (SFT) med hjälp av biblioteket Transformer Reinforcement Learning (TRL) med DeepSpeed ZeRO Nivå 3-optimering på en enda nod med en A10 GPU. Den här metoden kan utökas till installationer med flera noder.

TRL DeepSpeed

Hämta anteckningsbok

Feedback

Var den här sidan till hjälp?

Last updated on 2025-11-22