Sdílet prostřednictvím


Distribuované trénování s využitím DeepSpeed

Důležité

Tato funkce je v beta verzi.

Tato stránka obsahuje příklady poznámkového bloku pro distribuované trénování s využitím DeepSpeed na výpočetních prostředcích GPU bez serveru. DeepSpeed poskytuje pokročilé techniky optimalizace paměti prostřednictvím svých fází ZeRO (Zero Redundancy Optimizer) a umožňuje efektivní trénování velkých modelů.

Kdy použít DeepSpeed

Použijte DeepSpeed, když:

  • Potřebujete pokročilou optimalizaci paměti nad rámec standardu FSDP.
  • Chcete jemně odstupňovanou kontrolu nad horizontálním dělením stavu optimalizátoru (ZeRO Stage 1, 2 nebo 3)
  • Potřebujete další funkce, jako je fúze akumulace gradientu nebo předávání úloh procesoru.
  • Pracujete s velkými jazykovými modely s parametry od 1B do 100B+

Pro jednodušší případy použití zvažte DDP. Informace o trénování velkých modelů nativních pro PyTorch najdete v tématu FSDP.

Jemné ladění pod dohledem s využitím TRL a DeepSpeed ZeRO Stage 3

Tento poznámkový blok demonstruje, jak používat Serverless API pro GPU v Pythonu k provádění ladění pod dohledem (SFT) s použitím knihovny Posilované učení Transformer (TRL) a s optimalizací DeepSpeed ZeRO Stage 3 na jednom uzlu pomocí A10 GPU. Tento přístup je možné rozšířit na nastavení s více uzly.

TRL DeepSpeed

Pořiďte si notebook