Udostępnij za pomocą


Rozproszone trenowanie z wykorzystaniem wielu GPU i wielu węzłów

Ważne

Ta funkcja jest dostępna w wersji beta.

Ta strona zawiera przykłady notatników do trenowania rozproszonego z użyciem wielowęzłowych i wieloprocesorowych GPU przy użyciu bezserwerowych obliczeń GPU. W tych przykładach pokazano, jak skalować trenowanie między wieloma procesorami GPU i węzłami w celu zwiększenia wydajności.

Wybierz technikę równoległości

Podczas skalowania trenowania modelu na wielu procesorach GPU wybór odpowiedniej techniki równoległości zależy od rozmiaru modelu, dostępnej pamięci procesora GPU i wymagań dotyczących wydajności.

Technika Kiedy stosować
DDP (rozproszone dane równoległe) Pełny model pasuje do pojedynczej pamięci procesora GPU; konieczne jest skalowanie przepływności danych
FSDP (Równoległe Przetwarzanie Danych z Pełnym Podziałem na Fragmenty) Bardzo duże modele, które nie mieszczą się w pojedynczej pamięci procesora GPU
DeepSpeed ZeRO Duże modele z zaawansowanymi potrzebami optymalizacji pamięci

Aby uzyskać szczegółowe informacje na temat każdej techniki, zobacz DDP, FSDP i DeepSpeed.

Przykładowe notesy według techniki i struktury

Poniższa tabela organizuje przykładowe notesy według używanej struktury/biblioteki i zastosowanej techniki równoległości. W jednej komórce może pojawić się wiele notesów.

Struktura/biblioteka Przykłady protokołu DDP Przykłady FSDP Przykłady deepSpeed
PyTorch (natywny) Prosta sieć neuronowa MLP Transformator parametru 10M
Huggingface TRL Dostrojenie Gpt OSS 20B Dostrojenie Gpt OSS 120B Dostrojenie Llama 3.2 1B
Unsloth Dostrojenie Llama 3.2 3B
Ray Train ResNet18 on FashionMNIST (wizja komputerowa)
Lightning System rekomendatora z dwoma wieżami

Wprowadzenie

Poniższy notes zawiera podstawowy przykład użycia bezserwerowego interfejsu API języka Python procesora GPU do uruchamiania wielu procesorów GPU A10 na potrzeby trenowania rozproszonego.

Bezserwerowy interfejs API procesora GPU: A10 starter

Pobierz laptopa