Sdílet prostřednictvím


Distribuované trénování s více GPU

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.

Tato stránka obsahuje příklady poznámkových bloků pro distribuované trénování s více GPU pomocí AI Runtime. Tyto příklady ukazují, jak škálovat trénování napříč několika grafickými procesory a uzly pro lepší výkon.

Poznámka:

U grafických procesorů H100 se podporuje distribuované trénování s více GPU.

Volba techniky paralelismu

Při škálování trénování modelu napříč několika GPU závisí volba správné techniky paralelismu na velikosti modelu, dostupné paměti GPU a požadavcích na výkon.

Technika Kdy ho použít
DDP (Distribuované paralelní zpracování dat) Plný model se vejde do paměti s jedním GPU; potřeba škálování propustnosti dat
FSDP (Plně rozdělená paralelní data) Velmi velké modely, které se nevejdou do jedné paměti GPU
DeepSpeed ZeRO Velké modely s pokročilými potřebami optimalizace paměti

Podrobné informace o jednotlivých technikách najdete v tématu DDP, FSDP a DeepSpeed.

Ukázkové poznámkové bloky podle techniky a frameworku

Následující tabulka uspořádá ukázkové poznámkové bloky podle architektury nebo knihovny, kterou používáte, a použité techniky paralelismu. V jedné buňce se může zobrazit více poznámkových bloků.

Framework/knihovna Příklady DDP Příklady FSDP Příklady DeepSpeed
PyTorch (nativní) Jednoduchá neurální síť MLP
Detekce obrazu pomocí RetinaNet
Transformátor parametrů 10M
Huggingface TRL Vyladění operačního systému Gpt 20B Vyladění operačního systému Gpt 120B Vyladění Llama 3,2 1B
Unsloth Vyladění Llama 3,2 3B
Axolotl Vyladit Olmo3 7B
Mosaic LLM Foundry Vyladění Llama 3.2 8B
Blesk Dvouvěžový doporučovací systém

Začínáme

Následující kurzy vám pomůžou začít s bezserverovou knihovnou GPU Python pro distribuované trénování:

Tutoriál Description
Modul runtime AI s grafickými procesory H100 Naučte se používat Databricks AI Runtime s akcelerátory H100 ke spouštění distribuovaných úloh GPU pomocí knihovny serverless_gpu Pythonu.