Sdílet prostřednictvím


Trénování DDP (Distributed Data Parallel)

Důležité

Tato funkce je v beta verzi.

Tato stránka obsahuje příklady notebooků pro použití trénování Distributed Data Parallel (DDP, distribuované paralelní zpracování dat) na bezserverových GPU výpočetních prostředcích. DDP je nejběžnější metodou paralelismu pro distribuované trénování, kde se celý model replikuje na každé GPU a datové dávky jsou rozděleny mezi GPU.

Kdy použít protokol DDP

Použít protokol DDP v případech:

  • Váš model zcela zapadá do paměti jednoho GPU.
  • Chcete škálovat trénování zvýšením propustnosti dat.
  • Potřebujete nejjednodušší distribuovaný trénovací přístup s automatickou podporou ve většině architektur.

U větších modelů, které se nevejdou do jedné paměti GPU, zvažte místo toho FSDP nebo DeepSpeed .

Trénování jednoduché neurální sítě s vícevrstvým perceptronem (MLP) pomocí PyTorch DDP

Následující poznámkový blok ukazuje distribuované trénování jednoduché neurální sítě MLP (Multilayer Perceptron) pomocí modulu DDP PyTorch v Azure Databricks s bezserverovými prostředky GPU.

PyTorch DDP

Pořiďte si notebook

Trénování modelu OpenAI GPT-OSS 20B na 8xH100 pomocí TRL a DDP

Tento poznámkový blok ukazuje, jak použít Serverless GPU Python API ke spuštění supervidovaného jemného ladění (SFT) na modelu GPT-OSS 20B od Hugging Face pomocí knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá DDP na všech 8 grafických procesorech H100 na uzlu ke škálování globální velikosti dávky.

TRL DDP

Pořiďte si notebook

Distribuované jemné ladění modelu Llama verze 3.2 s rozlišením 3B pomocí Unsloth

Tento poznámkový blok ukazuje, jak pomocí bezserverového rozhraní API v Pythonu vyladit model Llama 3.2 3B s knihovnou Unsloth napříč grafickými procesory 8 A10. Unsloth poskytuje optimalizace tréninkového procesu zaměřené na úsporu paměti a využívá DDP prostřednictvím platformy Hugging Face Accelerate.

Optimalizace DDP

Pořiďte si notebook

Distribuované trénování s využitím Ray Train (počítačové zpracování obrazu)

Tento notebook ukazuje distribuované trénování modelu PyTorch ResNet na datové sadě FashionMNIST pomocí Ray Train a Ray Data v serverless GPU clusterech Databricks. Ray Train poskytuje orchestraci distribuovaného trénování vysoké úrovně a používá DDP jako základní strategii paralelismu. Tento příklad popisuje nastavení úložiště Katalogu Unity, konfiguraci Raye pro trénování GPU s více uzly, protokolování a registraci modelů pomocí MLflow a vyhodnocení výkonu modelu.

Ray DDP

Pořiďte si notebook

Trénování dvouvěžového doporučovacího systému pomocí PyTorch Lightningu

Tento poznámkový blok ukazuje, jak trénovat model doporučení dvou věží pomocí PyTorch Lightning na výpočetních prostředcích GPU bez serveru. PyTorch Lightning poskytuje rozhraní vysoké úrovně, které automaticky zpracovává konfiguraci DDP pro trénování s více GPU. Příklad zahrnuje přípravu dat pomocí formátu MdS (Mosaic Streaming) a distribuovaného trénování napříč grafickými procesory A10 nebo H100.

Podívejte se na stránku s příklady doporučení hlubokého učení pro kompletní poznámkové bloky, mezi které patří:

  • Příprava dat a převod formátu MDS
  • Dvouvěžové doporučovací školení s PyTorch Lightning