Sdílet prostřednictvím


Trénování s plně dělenými daty paralelně (FSDP)

Důležité

Tato funkce je v beta verzi.

Tato stránka obsahuje příklady notebooků pro použití Plně Shardovaných Procesů Paralelních Dat (FSDP) na bezserverových GPU výpočetních prostředcích. FSDP rozprostírá parametry modelu, gradienty a stavy optimalizátoru napříč grafickými procesory, což umožňuje trénování velmi velkých modelů, které se nevejdou do paměti jednoho GPU.

Kdy použít FSDP

Používejte FSDP, když:

  • Váš model je příliš velký, aby se vešl do paměti jednoho GPU.
  • Potřebujete trénovat modely v rozsahu parametrů 20B až 120B+
  • Chcete větší efektivitu paměti než DDP poskytuje.

U menších modelů, které se vejdou do paměti s jedním GPU, zvažte kvůli jednoduchosti protokol DDP . Pokročilé funkce optimalizace paměti najdete v tématu DeepSpeed.

Trénování modelu Transformer s 10 miliony parametrů pomocí FSDP2

Následující poznámkový blok ukazuje distribuovaný trénink modelu Transformer o 10 milionech parametrech pomocí knihovny FSDP2.

PyTorch FSDP

Pořiďte si notebook

Trénování modelu OpenAI GPT-OSS 120B pomocí TRL a FSDP

Tento poznámkový blok ukazuje, jak provést supervizované vyladění (SFT) na modelu GPT-OSS 120B pomocí FSDP2 a knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá FSDP ke snížení spotřeby paměti a DDP ke škálování globální velikosti dávky napříč 8 H100 GPU.

TRL FSDP

Pořiďte si notebook