Trénování s plně dělenými daty paralelně (FSDP)

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.

Tato stránka obsahuje ukázkové notebooky pro použití Fully Sharded Data Parallel (FSDP) tréninku na AI Runtime. FSDP rozprostírá parametry modelu, gradienty a stavy optimalizátoru napříč grafickými procesory, což umožňuje trénování velmi velkých modelů, které se nevejdou do paměti jednoho GPU.

Kdy použít FSDP

Používejte FSDP, když:

Váš model je příliš velký, aby se vešl do paměti jednoho GPU.
Potřebujete trénovat modely v rozsahu parametrů 20B až 120B+
Chcete větší efektivitu paměti než DDP poskytuje.

U menších modelů, které se vejdou do paměti s jedním GPU, zvažte kvůli jednoduchosti protokol DDP . Pokročilé funkce optimalizace paměti najdete v tématu DeepSpeed.

Příklady

Tutoriál	Description
Trénování modelu Transformer s 10 miliony parametrů pomocí FSDP2	Tento poznámkový blok ukazuje distribuované trénování modelu Transformer s 10 miliony parametrů pomocí knihovny FSDP2 .
Trénování modelu OpenAI GPT-OSS 120B pomocí TRL a FSDP	Tento poznámkový blok ukazuje, jak provést supervizované vyladění (SFT) na modelu GPT-OSS 120B pomocí FSDP2 a knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá FSDP ke snížení spotřeby paměti a DDP ke škálování globální velikosti dávky napříč 8 H100 GPU.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-03-21

Sdílet prostřednictvím

Trénování s plně dělenými daty paralelně (FSDP)

Kdy použít FSDP

Příklady

Váš názor

Další materiály