Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w wersji beta.
Ta strona zawiera przykłady notatników do trenowania rozproszonego z użyciem wielowęzłowych i wieloprocesorowych GPU przy użyciu bezserwerowych obliczeń GPU. W tych przykładach pokazano, jak skalować trenowanie między wieloma procesorami GPU i węzłami w celu zwiększenia wydajności.
Wybierz technikę równoległości
Podczas skalowania trenowania modelu na wielu procesorach GPU wybór odpowiedniej techniki równoległości zależy od rozmiaru modelu, dostępnej pamięci procesora GPU i wymagań dotyczących wydajności.
| Technika | Kiedy stosować |
|---|---|
| DDP (rozproszone dane równoległe) | Pełny model pasuje do pojedynczej pamięci procesora GPU; konieczne jest skalowanie przepływności danych |
| FSDP (Równoległe Przetwarzanie Danych z Pełnym Podziałem na Fragmenty) | Bardzo duże modele, które nie mieszczą się w pojedynczej pamięci procesora GPU |
| DeepSpeed ZeRO | Duże modele z zaawansowanymi potrzebami optymalizacji pamięci |
Aby uzyskać szczegółowe informacje na temat każdej techniki, zobacz DDP, FSDP i DeepSpeed.
Przykładowe notesy według techniki i struktury
Poniższa tabela organizuje przykładowe notesy według używanej struktury/biblioteki i zastosowanej techniki równoległości. W jednej komórce może pojawić się wiele notesów.
| Struktura/biblioteka | Przykłady protokołu DDP | Przykłady FSDP | Przykłady deepSpeed |
|---|---|---|---|
| PyTorch (natywny) | Prosta sieć neuronowa MLP | Transformator parametru 10M | — |
| Huggingface TRL | Dostrojenie Gpt OSS 20B | Dostrojenie Gpt OSS 120B | Dostrojenie Llama 3.2 1B |
| Unsloth | Dostrojenie Llama 3.2 3B | — | — |
| Ray Train | ResNet18 on FashionMNIST (wizja komputerowa) | — | — |
| Lightning | System rekomendatora z dwoma wieżami | — | — |
Wprowadzenie
Poniższy notes zawiera podstawowy przykład użycia bezserwerowego interfejsu API języka Python procesora GPU do uruchamiania wielu procesorów GPU A10 na potrzeby trenowania rozproszonego.