Trénování s více GPU a více uzly

Důležité

Tato funkce je v beta verzi.

Tato stránka obsahuje příklady Jupyter notebooků pro víceuzlové a více-GPU distribuované trénování s využitím serverless GPU výpočetních prostředků. Tyto příklady ukazují, jak škálovat trénování napříč několika grafickými procesory a uzly pro lepší výkon.

Volba techniky paralelismu

Při škálování trénování modelu napříč několika GPU závisí volba správné techniky paralelismu na velikosti modelu, dostupné paměti GPU a požadavcích na výkon.

Technika	Kdy ho použít
DDP (Distribuované Paralelní Zpracování Dat)	Plný model se vejde do paměti s jedním GPU; potřeba škálování propustnosti dat
FSDP (Plně rozdělená paralelní data)	Velmi velké modely, které se nevejdou do jedné paměti GPU
DeepSpeed ZeRO	Velké modely s pokročilými potřebami optimalizace paměti

Podrobné informace o jednotlivých technikách najdete v tématu DDP, FSDP a DeepSpeed.

Ukázkové poznámkové bloky podle techniky a frameworku

Následující tabulka uspořádá ukázkové poznámkové bloky podle architektury nebo knihovny, kterou používáte, a použité techniky paralelismu. V jedné buňce se může zobrazit více poznámkových bloků.

Framework/knihovna	Příklady DDP	Příklady FSDP	Příklady DeepSpeed
PyTorch (nativní)	Jednoduchá neurální síť MLP Integrace MLflow 3.0 (klasifikace Iris)	Transformátor parametrů 10M	—
TRL + PyTorch	Vyladění GPT-OSS	Vyladění GPT-OSS	Vyladění Llama 1B
Unsloth	Vyladění Llama 3,2 3B	—	—
Ray Train	ResNet18 na FashionMNIST (počítačové zpracování obrazu)	—	—
PyTorch Lightning	Dvouvěžový doporučovací systém	—	—

Začínáme

Následující poznámkový blok obsahuje základní příklad použití bezserverového rozhraní GPU Python API ke spuštění několika grafických procesorů A10 pro distribuované trénování.

Bezserverové rozhraní API GPU: Starter A10

Pořiďte si notebook

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-28