Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
Viktigt!
Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.
Den här sidan innehåller notebook-exempel för distribuerad träning med flera noder och multi-GPU med hjälp av serverlös GPU-beräkning. De här exemplen visar hur du skalar träning över flera GPU:er och noder för bättre prestanda.
Välj parallellitetsteknik
När du skalar modellträningen över flera GPU:er beror valet av rätt parallellitetsteknik på din modellstorlek, tillgängliga GPU-minne och prestandakrav.
| Teknik | När det bör användas |
|---|---|
| DDP (Distributed Data Parallel) | Fullständig modell passar i ett enda GPU-minne; behöver skala dataflöde |
| FSDP (fullständigt fragmenterad dataparallell) | Mycket stora modeller som inte får plats i ett enda GPU-minne |
| DeepSpeed ZeRO | Stora modeller med avancerade minnesoptimeringsbehov |
Detaljerad information om varje teknik finns i DDP, FSDP och DeepSpeed.
Exempel på notebook-filer efter teknik och ramverk
I följande tabell ordnas exempelanteckningsböcker efter det ramverk/bibliotek som du använder och den parallellitetsteknik som används. Flera notebook-filer kan visas i en enda cell.
| Ramverk/bibliotek | DDP-exempel | FSDP-exempel | DeepSpeed-exempel |
|---|---|---|---|
| PyTorch (native) |
Enkelt MLP-neuralt nätverk RetinaNet-avbildningsidentifiering |
10M-parametertransformator | — |
| Huggingface TRL | Finjustera Gpt OSS 20B | Finjustera Gpt OSS 120B | Finjustera Llama 3.2 1B |
| Ta bort rullning | Finjustera Llama 3.2 3B | — | — |
| Axolotl | Finjustera Olmo3 7B | — | — |
| Mosaik LLM Foundry | Finjustera Llama 3.2 8B | — | — |
| Ray Train |
ResNet18 på FashionMNIST (datorseende) XGBoost Hyperparameter Tuning |
— | — |
| Lightning | Tvåtornsrekommendatorsystem | — | — |
Get started
Följande notebook-fil har ett grundläggande exempel på hur du använder serverlös GPU Python API för att köra flera A10 GPU-enheter för distribuerad träning.