Sdílet prostřednictvím


Trénování DDP (Distributed Data Parallel)

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.

Tato stránka obsahuje příklady poznámkového bloku pro použití trénování DDP (Distributed Data Parallel) v prostředí AI Runtime. DDP je nejběžnější metodou paralelismu pro distribuované trénování, kde se celý model replikuje na každé GPU a datové dávky jsou rozděleny mezi GPU.

Kdy použít protokol DDP

Použít protokol DDP v případech:

  • Váš model zcela zapadá do paměti jednoho GPU.
  • Chcete škálovat trénování zvýšením propustnosti dat.
  • Potřebujete nejjednodušší distribuovaný trénovací přístup s automatickou podporou ve většině architektur.

U větších modelů, které se nevejdou do jedné paměti GPU, zvažte místo toho FSDP nebo DeepSpeed .

Příklady

Tutoriál Description
Trénování jednoduché neurální sítě s vícevrstvým perceptronem (MLP) pomocí PyTorch DDP Tento poznámkový blok ukazuje distribuované trénování jednoduché neurální sítě MLP (Multilayer Perceptron) pomocí modulu DDP PyTorchu v Azure Databricks s bezserverovými prostředky GPU.
Trénování modelu OpenAI GPT-OSS 20B na 8xH100 pomocí TRL a DDP Tento poznámkový blok ukazuje, jak použít Serverless GPU Python API ke spuštění supervidovaného jemného ladění (SFT) na modelu GPT-OSS 20B od Hugging Face pomocí knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá DDP na všech 8 grafických procesorech H100 na uzlu ke škálování globální velikosti dávky.
Distribuované doladění Llama 3.2 3B pomocí Unsloth Tento poznámkový blok ukazuje, jak pomocí bezserverového rozhraní API v Pythonu vyladit model Llama 3.2 3B s knihovnou Unsloth napříč grafickými procesory 8 A10. Unsloth poskytuje optimalizace trénování šetřící paměť a využívá DDP v pozadí díky použití Hugging Face Accelerate.
Jemné distribuované ladění Olmo3 7B pomocí Axolotl Tento poznámkový blok ukazuje, jak pomocí bezserverového rozhraní API Pythonu vyladit model Olmo3 7B s knihovnou Axolotl napříč grafickými procesory 16 H100. Axolotl je navržený tak, aby zjednodušil fáze po tréninkovém zpracování a doladění parametrů nejnovějších LLM.
Trénování dvouvěžového doporučovacího systému pomocí PyTorch Lightningu Tento poznámkový blok ukazuje, jak trénovat model doporučení dvou věží pomocí PyTorch Lightning na bezserverovém GPU. PyTorch Lightning poskytuje rozhraní vysoké úrovně, které automaticky zpracovává konfiguraci DDP pro trénování s více GPU. Příklad zahrnuje přípravu dat pomocí formátu MdS (Mosaic Streaming) a distribuovaného trénování napříč grafickými procesory A10 nebo H100.
Podívejte se na stránku s příklady doporučení hlubokého učení pro kompletní poznámkové bloky, mezi které patří:
  • Příprava dat a převod formátu MDS
  • Dvouvěžové doporučovací školení s PyTorch Lightning

Trénování jednoduché neurální sítě s vícevrstvým perceptronem (MLP) pomocí PyTorch DDP

Následující poznámkový blok ukazuje distribuované trénování jednoduché neurální sítě MLP (Multilayer Perceptron) pomocí modulu DDP PyTorch v Azure Databricks s bezserverovými prostředky GPU.

PyTorch DDP

Pořiďte si notebook

Trénování dvouvěžového doporučovacího systému pomocí PyTorch Lightningu

Tento poznámkový blok ukazuje, jak trénovat model doporučení dvou věží pomocí PyTorch Lightning na výpočetních prostředcích GPU bez serveru. PyTorch Lightning poskytuje rozhraní vysoké úrovně, které automaticky zpracovává konfiguraci DDP pro trénování s více GPU. Příklad zahrnuje přípravu dat pomocí formátu MdS (Mosaic Streaming) a distribuovaného trénování napříč grafickými procesory A10 nebo H100.

Podívejte se na stránku s příklady doporučení hlubokého učení pro kompletní poznámkové bloky, mezi které patří:

  • Příprava dat a převod formátu MDS
  • Dvouvěžové doporučovací školení s PyTorch Lightning