Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.
Tato stránka obsahuje ukázkové notebooky pro použití Fully Sharded Data Parallel (FSDP) tréninku na AI Runtime. FSDP rozprostírá parametry modelu, gradienty a stavy optimalizátoru napříč grafickými procesory, což umožňuje trénování velmi velkých modelů, které se nevejdou do paměti jednoho GPU.
Kdy použít FSDP
Používejte FSDP, když:
- Váš model je příliš velký, aby se vešl do paměti jednoho GPU.
- Potřebujete trénovat modely v rozsahu parametrů 20B až 120B+
- Chcete větší efektivitu paměti než DDP poskytuje.
U menších modelů, které se vejdou do paměti s jedním GPU, zvažte kvůli jednoduchosti protokol DDP . Pokročilé funkce optimalizace paměti najdete v tématu DeepSpeed.
Příklady
| Tutoriál | Description |
|---|---|
| Trénování modelu Transformer s 10 miliony parametrů pomocí FSDP2 | Tento poznámkový blok ukazuje distribuované trénování modelu Transformer s 10 miliony parametrů pomocí knihovny FSDP2 . |
| Trénování modelu OpenAI GPT-OSS 120B pomocí TRL a FSDP | Tento poznámkový blok ukazuje, jak provést supervizované vyladění (SFT) na modelu GPT-OSS 120B pomocí FSDP2 a knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá FSDP ke snížení spotřeby paměti a DDP ke škálování globální velikosti dávky napříč 8 H100 GPU. |