Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważna
Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.
Ta strona zawiera przykłady notebooków dla trenowania rozproszonego na wielu procesorach GPU przy użyciu środowiska uruchomieniowego sztucznej inteligencji. W tych przykładach pokazano, jak skalować trenowanie między wieloma procesorami GPU i węzłami w celu zwiększenia wydajności.
Uwaga / Notatka
Trening rozproszony z użyciem kilku GPU jest obsługiwany na kartach H100 GPU.
Wybierz technikę równoległości
Podczas skalowania trenowania modelu na wielu procesorach GPU wybór odpowiedniej techniki równoległości zależy od rozmiaru modelu, dostępnej pamięci procesora GPU i wymagań dotyczących wydajności.
| Technika | Kiedy stosować |
|---|---|
| DDP (rozproszone dane równoległe) | Pełny model pasuje do pojedynczej pamięci procesora GPU; konieczne jest skalowanie przepływności danych |
| FSDP (Równoległe Przetwarzanie Danych z Pełnym Podziałem na Fragmenty) | Bardzo duże modele, które nie mieszczą się w pojedynczej pamięci procesora GPU |
| DeepSpeed ZeRO | Duże modele z zaawansowanymi potrzebami optymalizacji pamięci |
Aby uzyskać szczegółowe informacje na temat każdej techniki, zobacz DDP, FSDP i DeepSpeed.
Przykładowe notesy według techniki i struktury
Poniższa tabela organizuje przykładowe notesy według używanej struktury/biblioteki i zastosowanej techniki równoległości. W jednej komórce może pojawić się wiele notesów.
| Struktura/biblioteka | Przykłady protokołu DDP | Przykłady FSDP | Przykłady deepSpeed |
|---|---|---|---|
| PyTorch (natywny) |
Prosta sieć neuronowa MLP Wykrywanie obrazów RetinaNet |
Transformator parametru 10M | — |
| Huggingface TRL | Dostrojenie Gpt OSS 20B | Dostrojenie Gpt OSS 120B | Dostrojenie Llama 3.2 1B |
| Unsloth | Dostrojenie Llama 3.2 3B | — | — |
| Axolotl | Dostrojenie Olmo3 7B | — | — |
| Mosaic LLM Foundry | Dostrojenie Llama 3.2 8B | — | — |
| Lightning | System rekomendatora z dwoma wieżami | — | — |
Wprowadzenie
Skorzystaj z poniższych samouczków, aby rozpocząć pracę z bezserwerową biblioteką języka Python procesora GPU na potrzeby trenowania rozproszonego:
| Tutorial | Opis |
|---|---|
| Środowisko uruchomieniowe sztucznej inteligencji z procesorami GPU H100 | Dowiedz się, jak używać środowiska databricks AI Runtime z akceleratorami H100 do uruchamiania rozproszonych obciążeń procesora GPU przy użyciu biblioteki języka Python serverless_gpu. |