Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Tato funkce je v beta verzi.
Tato stránka obsahuje příklady notebooků pro použití Plně Shardovaných Procesů Paralelních Dat (FSDP) na bezserverových GPU výpočetních prostředcích. FSDP rozprostírá parametry modelu, gradienty a stavy optimalizátoru napříč grafickými procesory, což umožňuje trénování velmi velkých modelů, které se nevejdou do paměti jednoho GPU.
Kdy použít FSDP
Používejte FSDP, když:
- Váš model je příliš velký, aby se vešl do paměti jednoho GPU.
- Potřebujete trénovat modely v rozsahu parametrů 20B až 120B+
- Chcete větší efektivitu paměti než DDP poskytuje.
U menších modelů, které se vejdou do paměti s jedním GPU, zvažte kvůli jednoduchosti protokol DDP . Pokročilé funkce optimalizace paměti najdete v tématu DeepSpeed.
Trénování modelu Transformer s 10 miliony parametrů pomocí FSDP2
Následující poznámkový blok ukazuje distribuovaný trénink modelu Transformer o 10 milionech parametrech pomocí knihovny FSDP2.
PyTorch FSDP
Trénování modelu OpenAI GPT-OSS 120B pomocí TRL a FSDP
Tento poznámkový blok ukazuje, jak provést supervizované vyladění (SFT) na modelu GPT-OSS 120B pomocí FSDP2 a knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá FSDP ke snížení spotřeby paměti a DDP ke škálování globální velikosti dávky napříč 8 H100 GPU.