Sdílet prostřednictvím


Trénování s více GPU a více uzly

Důležité

Tato funkce je v beta verzi.

Tato stránka obsahuje příklady Jupyter notebooků pro víceuzlové a více-GPU distribuované trénování s využitím serverless GPU výpočetních prostředků. Tyto příklady ukazují, jak škálovat trénování napříč několika grafickými procesory a uzly pro lepší výkon.

Volba techniky paralelismu

Při škálování trénování modelu napříč několika GPU závisí volba správné techniky paralelismu na velikosti modelu, dostupné paměti GPU a požadavcích na výkon.

Technika Kdy ho použít
DDP (Distribuované Paralelní Zpracování Dat) Plný model se vejde do paměti s jedním GPU; potřeba škálování propustnosti dat
FSDP (Plně rozdělená paralelní data) Velmi velké modely, které se nevejdou do jedné paměti GPU
DeepSpeed ZeRO Velké modely s pokročilými potřebami optimalizace paměti

Podrobné informace o jednotlivých technikách najdete v tématu DDP, FSDP a DeepSpeed.

Ukázkové poznámkové bloky podle techniky a frameworku

Následující tabulka uspořádá ukázkové poznámkové bloky podle architektury nebo knihovny, kterou používáte, a použité techniky paralelismu. V jedné buňce se může zobrazit více poznámkových bloků.

Framework/knihovna Příklady DDP Příklady FSDP Příklady DeepSpeed
PyTorch (nativní) Jednoduchá neurální síť MLP
Integrace MLflow 3.0 (klasifikace Iris)
Transformátor parametrů 10M
TRL + PyTorch Vyladění GPT-OSS Vyladění GPT-OSS Vyladění Llama 1B
Unsloth Vyladění Llama 3,2 3B
Ray Train ResNet18 na FashionMNIST (počítačové zpracování obrazu)
PyTorch Lightning Dvouvěžový doporučovací systém

Začínáme

Následující poznámkový blok obsahuje základní příklad použití bezserverového rozhraní GPU Python API ke spuštění několika grafických procesorů A10 pro distribuované trénování.

Bezserverové rozhraní API GPU: Starter A10

Pořiďte si notebook