Distribuerad träning med flera GPU:n och flera noder

Viktigt!

Den här funktionen finns i Beta.

Den här sidan innehåller notebook-exempel för distribuerad träning med flera noder och multi-GPU med hjälp av serverlös GPU-beräkning. De här exemplen visar hur du skalar träning över flera GPU:er och noder för bättre prestanda.

Välj parallellitetsteknik

När du skalar modellträningen över flera GPU:er beror valet av rätt parallellitetsteknik på din modellstorlek, tillgängliga GPU-minne och prestandakrav.

Teknik När det bör användas
DDP (Distributed Data Parallel) Fullständig modell passar i ett enda GPU-minne; behöver skala dataflöde
FSDP (fullständigt fragmenterad dataparallell) Mycket stora modeller som inte får plats i ett enda GPU-minne
DeepSpeed ZeRO Stora modeller med avancerade minnesoptimeringsbehov

Detaljerad information om varje teknik finns i DDP, FSDP och DeepSpeed.

Exempel på notebook-filer efter teknik och ramverk

I följande tabell ordnas exempelanteckningsböcker efter det ramverk/bibliotek som du använder och den parallellitetsteknik som används. Flera notebook-filer kan visas i en enda cell.

Ramverk/bibliotek DDP-exempel FSDP-exempel DeepSpeed-exempel
PyTorch (native) Enkelt MLP-neuralt nätverk 10M-parametertransformator
Huggingface TRL Finjustera Gpt OSS 20B Finjustera Gpt OSS 120B Finjustera Llama 3.2 1B
Ta bort rullning Finjustera Llama 3.2 3B
Ray Train ResNet18 på FashionMNIST (datorseende)
Lightning Tvåtornsrekommendatorsystem

Get started

Följande notebook-fil har ett grundläggande exempel på hur du använder serverlös GPU Python API för att köra flera A10 GPU-enheter för distribuerad träning.

Serverlöst GPU-API: A10 starter

Hämta anteckningsbok