Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Tato funkce je v beta verzi.
Tato stránka obsahuje příklady Jupyter notebooků pro víceuzlové a více-GPU distribuované trénování s využitím serverless GPU výpočetních prostředků. Tyto příklady ukazují, jak škálovat trénování napříč několika grafickými procesory a uzly pro lepší výkon.
Volba techniky paralelismu
Při škálování trénování modelu napříč několika GPU závisí volba správné techniky paralelismu na velikosti modelu, dostupné paměti GPU a požadavcích na výkon.
| Technika | Kdy ho použít |
|---|---|
| DDP (Distribuované Paralelní Zpracování Dat) | Plný model se vejde do paměti s jedním GPU; potřeba škálování propustnosti dat |
| FSDP (Plně rozdělená paralelní data) | Velmi velké modely, které se nevejdou do jedné paměti GPU |
| DeepSpeed ZeRO | Velké modely s pokročilými potřebami optimalizace paměti |
Podrobné informace o jednotlivých technikách najdete v tématu DDP, FSDP a DeepSpeed.
Ukázkové poznámkové bloky podle techniky a frameworku
Následující tabulka uspořádá ukázkové poznámkové bloky podle architektury nebo knihovny, kterou používáte, a použité techniky paralelismu. V jedné buňce se může zobrazit více poznámkových bloků.
| Framework/knihovna | Příklady DDP | Příklady FSDP | Příklady DeepSpeed |
|---|---|---|---|
| PyTorch (nativní) |
Jednoduchá neurální síť MLP Integrace MLflow 3.0 (klasifikace Iris) |
Transformátor parametrů 10M | — |
| TRL + PyTorch | Vyladění GPT-OSS | Vyladění GPT-OSS | Vyladění Llama 1B |
| Unsloth | Vyladění Llama 3,2 3B | — | — |
| Ray Train | ResNet18 na FashionMNIST (počítačové zpracování obrazu) | — | — |
| PyTorch Lightning | Dvouvěžový doporučovací systém | — | — |
Začínáme
Následující poznámkový blok obsahuje základní příklad použití bezserverového rozhraní GPU Python API ke spuštění několika grafických procesorů A10 pro distribuované trénování.