Rozproszone trenowanie z wykorzystaniem wielu GPU i wielu węzłów

Ważne

Ta funkcja jest dostępna w wersji beta.

Ta strona zawiera przykłady notatników do trenowania rozproszonego z użyciem wielowęzłowych i wieloprocesorowych GPU przy użyciu bezserwerowych obliczeń GPU. W tych przykładach pokazano, jak skalować trenowanie między wieloma procesorami GPU i węzłami w celu zwiększenia wydajności.

Wybierz technikę równoległości

Podczas skalowania trenowania modelu na wielu procesorach GPU wybór odpowiedniej techniki równoległości zależy od rozmiaru modelu, dostępnej pamięci procesora GPU i wymagań dotyczących wydajności.

Technika	Kiedy stosować
DDP (rozproszone dane równoległe)	Pełny model pasuje do pojedynczej pamięci procesora GPU; konieczne jest skalowanie przepływności danych
FSDP (Równoległe Przetwarzanie Danych z Pełnym Podziałem na Fragmenty)	Bardzo duże modele, które nie mieszczą się w pojedynczej pamięci procesora GPU
DeepSpeed ZeRO	Duże modele z zaawansowanymi potrzebami optymalizacji pamięci

Aby uzyskać szczegółowe informacje na temat każdej techniki, zobacz DDP, FSDP i DeepSpeed.

Przykładowe notesy według techniki i struktury

Poniższa tabela organizuje przykładowe notesy według używanej struktury/biblioteki i zastosowanej techniki równoległości. W jednej komórce może pojawić się wiele notesów.

Struktura/biblioteka	Przykłady protokołu DDP	Przykłady FSDP	Przykłady deepSpeed
PyTorch (natywny)	Prosta sieć neuronowa MLP	Transformator parametru 10M	—
Huggingface TRL	Dostrojenie Gpt OSS 20B	Dostrojenie Gpt OSS 120B	Dostrojenie Llama 3.2 1B
Unsloth	Dostrojenie Llama 3.2 3B	—	—
Ray Train	ResNet18 on FashionMNIST (wizja komputerowa)	—	—
Lightning	System rekomendatora z dwoma wieżami	—	—

Wprowadzenie

Poniższy notes zawiera podstawowy przykład użycia bezserwerowego interfejsu API języka Python procesora GPU do uruchamiania wielu procesorów GPU A10 na potrzeby trenowania rozproszonego.

Bezserwerowy interfejs API procesora GPU: A10 starter

Pobierz laptopa

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-12-06