Sdílet prostřednictvím


Trénování s plně dělenými daty paralelně (FSDP)

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.

Tato stránka obsahuje ukázkové notebooky pro použití Fully Sharded Data Parallel (FSDP) tréninku na AI Runtime. FSDP rozprostírá parametry modelu, gradienty a stavy optimalizátoru napříč grafickými procesory, což umožňuje trénování velmi velkých modelů, které se nevejdou do paměti jednoho GPU.

Kdy použít FSDP

Používejte FSDP, když:

  • Váš model je příliš velký, aby se vešl do paměti jednoho GPU.
  • Potřebujete trénovat modely v rozsahu parametrů 20B až 120B+
  • Chcete větší efektivitu paměti než DDP poskytuje.

U menších modelů, které se vejdou do paměti s jedním GPU, zvažte kvůli jednoduchosti protokol DDP . Pokročilé funkce optimalizace paměti najdete v tématu DeepSpeed.

Příklady

Tutoriál Description
Trénování modelu Transformer s 10 miliony parametrů pomocí FSDP2 Tento poznámkový blok ukazuje distribuované trénování modelu Transformer s 10 miliony parametrů pomocí knihovny FSDP2 .
Trénování modelu OpenAI GPT-OSS 120B pomocí TRL a FSDP Tento poznámkový blok ukazuje, jak provést supervizované vyladění (SFT) na modelu GPT-OSS 120B pomocí FSDP2 a knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá FSDP ke snížení spotřeby paměti a DDP ke škálování globální velikosti dávky napříč 8 H100 GPU.