Sdílet prostřednictvím


Distribuované trénování s využitím DeepSpeed

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.

Tato stránka obsahuje příklady poznámkového bloku pro distribuované trénování s využitím DeepSpeed v AI Runtime. DeepSpeed poskytuje pokročilé techniky optimalizace paměti prostřednictvím svých fází ZeRO (Zero Redundancy Optimizer) a umožňuje efektivní trénování velkých modelů.

Kdy použít DeepSpeed

Použijte DeepSpeed, když:

  • Potřebujete pokročilou optimalizaci paměti nad rámec standardu FSDP.
  • Chcete jemně odstupňovanou kontrolu nad horizontálním dělením stavu optimalizátoru (ZeRO Stage 1, 2 nebo 3)
  • Potřebujete další funkce, jako je fúze akumulace gradientu nebo předávání úloh procesoru.
  • Pracujete s velkými jazykovými modely s parametry od 1B do 100B+

Pro jednodušší případy použití zvažte DDP. Informace o trénování velkých modelů nativních pro PyTorch najdete v tématu FSDP.

Příklady

Tutoriál Description
Jemné ladění pod dohledem s využitím TRL a DeepSpeed ZeRO Stage 3 Pomocí serverless GPU API v Pythonu můžete provádět supervizované jemné doladění (SFT) pomocí knihovny TRL (Transformer Reinforcement Learning) s optimalizací DeepSpeed ZeRO Stage 3 na jednom uzlu A10 GPU.