Distribuerad träning med flera GPU:n och flera noder

Viktigt!

Den här funktionen finns i Beta.

Den här sidan innehåller notebook-exempel för distribuerad träning med flera noder och multi-GPU med hjälp av serverlös GPU-beräkning. De här exemplen visar hur du skalar träning över flera GPU:er och noder för bättre prestanda.

Välj parallellitetsteknik

När du skalar modellträningen över flera GPU:er beror valet av rätt parallellitetsteknik på din modellstorlek, tillgängliga GPU-minne och prestandakrav.

Teknik	När det bör användas
DDP (Distributed Data Parallel)	Fullständig modell passar i ett enda GPU-minne; behöver skala dataflöde
FSDP (fullständigt fragmenterad dataparallell)	Mycket stora modeller som inte får plats i ett enda GPU-minne
DeepSpeed ZeRO	Stora modeller med avancerade minnesoptimeringsbehov

Detaljerad information om varje teknik finns i DDP, FSDP och DeepSpeed.

Exempel på notebook-filer efter teknik och ramverk

I följande tabell ordnas exempelanteckningsböcker efter det ramverk/bibliotek som du använder och den parallellitetsteknik som används. Flera notebook-filer kan visas i en enda cell.

Ramverk/bibliotek	DDP-exempel	FSDP-exempel	DeepSpeed-exempel
PyTorch (native)	Enkelt MLP-neuralt nätverk	10M-parametertransformator	—
Huggingface TRL	Finjustera Gpt OSS 20B	Finjustera Gpt OSS 120B	Finjustera Llama 3.2 1B
Ta bort rullning	Finjustera Llama 3.2 3B	—	—
Ray Train	ResNet18 på FashionMNIST (datorseende)	—	—
Lightning	Tvåtornsrekommendatorsystem	—	—

Get started

Följande notebook-fil har ett grundläggande exempel på hur du använder serverlös GPU Python API för att köra flera A10 GPU-enheter för distribuerad träning.

Serverlöst GPU-API: A10 starter

Hämta anteckningsbok

Feedback

Var den här sidan till hjälp?

Last updated on 2025-12-06