Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns i Beta.
Den här sidan innehåller notebook-exempel för distribuerad träning med flera noder och multi-GPU med hjälp av serverlös GPU-beräkning. De här exemplen visar hur du skalar träning över flera GPU:er och noder för bättre prestanda.
Välj parallellitetsteknik
När du skalar modellträningen över flera GPU:er beror valet av rätt parallellitetsteknik på din modellstorlek, tillgängliga GPU-minne och prestandakrav.
| Teknik | När det bör användas |
|---|---|
| DDP (Distributed Data Parallel) | Fullständig modell passar i ett enda GPU-minne; behöver skala dataflöde |
| FSDP (fullständigt fragmenterad dataparallell) | Mycket stora modeller som inte får plats i ett enda GPU-minne |
| DeepSpeed ZeRO | Stora modeller med avancerade minnesoptimeringsbehov |
Detaljerad information om varje teknik finns i DDP, FSDP och DeepSpeed.
Exempel på notebook-filer efter teknik och ramverk
I följande tabell ordnas exempelanteckningsböcker efter det ramverk/bibliotek som du använder och den parallellitetsteknik som används. Flera notebook-filer kan visas i en enda cell.
| Ramverk/bibliotek | DDP-exempel | FSDP-exempel | DeepSpeed-exempel |
|---|---|---|---|
| PyTorch (native) | Enkelt MLP-neuralt nätverk | 10M-parametertransformator | — |
| Huggingface TRL | Finjustera Gpt OSS 20B | Finjustera Gpt OSS 120B | Finjustera Llama 3.2 1B |
| Ta bort rullning | Finjustera Llama 3.2 3B | — | — |
| Ray Train | ResNet18 på FashionMNIST (datorseende) | — | — |
| Lightning | Tvåtornsrekommendatorsystem | — | — |
Get started
Följande notebook-fil har ett grundläggande exempel på hur du använder serverlös GPU Python API för att köra flera A10 GPU-enheter för distribuerad träning.