Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.
Tato stránka obsahuje příklady poznámkového bloku pro použití trénování DDP (Distributed Data Parallel) v prostředí AI Runtime. DDP je nejběžnější metodou paralelismu pro distribuované trénování, kde se celý model replikuje na každé GPU a datové dávky jsou rozděleny mezi GPU.
Kdy použít protokol DDP
Použít protokol DDP v případech:
- Váš model zcela zapadá do paměti jednoho GPU.
- Chcete škálovat trénování zvýšením propustnosti dat.
- Potřebujete nejjednodušší distribuovaný trénovací přístup s automatickou podporou ve většině architektur.
U větších modelů, které se nevejdou do jedné paměti GPU, zvažte místo toho FSDP nebo DeepSpeed .
Příklady
| Tutoriál | Description |
|---|---|
| Trénování jednoduché neurální sítě s vícevrstvým perceptronem (MLP) pomocí PyTorch DDP | Tento poznámkový blok ukazuje distribuované trénování jednoduché neurální sítě MLP (Multilayer Perceptron) pomocí modulu DDP PyTorchu v Azure Databricks s bezserverovými prostředky GPU. |
| Trénování modelu OpenAI GPT-OSS 20B na 8xH100 pomocí TRL a DDP | Tento poznámkový blok ukazuje, jak použít Serverless GPU Python API ke spuštění supervidovaného jemného ladění (SFT) na modelu GPT-OSS 20B od Hugging Face pomocí knihovny Transformer Reinforcement Learning (TRL). Tento příklad využívá DDP na všech 8 grafických procesorech H100 na uzlu ke škálování globální velikosti dávky. |
| Distribuované doladění Llama 3.2 3B pomocí Unsloth | Tento poznámkový blok ukazuje, jak pomocí bezserverového rozhraní API v Pythonu vyladit model Llama 3.2 3B s knihovnou Unsloth napříč grafickými procesory 8 A10. Unsloth poskytuje optimalizace trénování šetřící paměť a využívá DDP v pozadí díky použití Hugging Face Accelerate. |
| Jemné distribuované ladění Olmo3 7B pomocí Axolotl | Tento poznámkový blok ukazuje, jak pomocí bezserverového rozhraní API Pythonu vyladit model Olmo3 7B s knihovnou Axolotl napříč grafickými procesory 16 H100. Axolotl je navržený tak, aby zjednodušil fáze po tréninkovém zpracování a doladění parametrů nejnovějších LLM. |
| Trénování dvouvěžového doporučovacího systému pomocí PyTorch Lightningu | Tento poznámkový blok ukazuje, jak trénovat model doporučení dvou věží pomocí PyTorch Lightning na bezserverovém GPU. PyTorch Lightning poskytuje rozhraní vysoké úrovně, které automaticky zpracovává konfiguraci DDP pro trénování s více GPU. Příklad zahrnuje přípravu dat pomocí formátu MdS (Mosaic Streaming) a distribuovaného trénování napříč grafickými procesory A10 nebo H100. Podívejte se na stránku s příklady doporučení hlubokého učení pro kompletní poznámkové bloky, mezi které patří:
|
Trénování jednoduché neurální sítě s vícevrstvým perceptronem (MLP) pomocí PyTorch DDP
Následující poznámkový blok ukazuje distribuované trénování jednoduché neurální sítě MLP (Multilayer Perceptron) pomocí modulu DDP PyTorch v Azure Databricks s bezserverovými prostředky GPU.
PyTorch DDP
Trénování dvouvěžového doporučovacího systému pomocí PyTorch Lightningu
Tento poznámkový blok ukazuje, jak trénovat model doporučení dvou věží pomocí PyTorch Lightning na výpočetních prostředcích GPU bez serveru. PyTorch Lightning poskytuje rozhraní vysoké úrovně, které automaticky zpracovává konfiguraci DDP pro trénování s více GPU. Příklad zahrnuje přípravu dat pomocí formátu MdS (Mosaic Streaming) a distribuovaného trénování napříč grafickými procesory A10 nebo H100.
Podívejte se na stránku s příklady doporučení hlubokého učení pro kompletní poznámkové bloky, mezi které patří:
- Příprava dat a převod formátu MDS
- Dvouvěžové doporučovací školení s PyTorch Lightning