Trenowanie rozproszone na wielu GPU

Ważna

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notebooków dla trenowania rozproszonego na wielu procesorach GPU przy użyciu środowiska uruchomieniowego sztucznej inteligencji. W tych przykładach pokazano, jak skalować trenowanie między wieloma procesorami GPU i węzłami w celu zwiększenia wydajności.

Uwaga / Notatka

Trening rozproszony z użyciem kilku GPU jest obsługiwany na kartach H100 GPU.

Wybierz technikę równoległości

Podczas skalowania trenowania modelu na wielu procesorach GPU wybór odpowiedniej techniki równoległości zależy od rozmiaru modelu, dostępnej pamięci procesora GPU i wymagań dotyczących wydajności.

Technika	Kiedy stosować
DDP (rozproszone dane równoległe)	Pełny model pasuje do pojedynczej pamięci procesora GPU; konieczne jest skalowanie przepływności danych
FSDP (Równoległe Przetwarzanie Danych z Pełnym Podziałem na Fragmenty)	Bardzo duże modele, które nie mieszczą się w pojedynczej pamięci procesora GPU
DeepSpeed ZeRO	Duże modele z zaawansowanymi potrzebami optymalizacji pamięci

Aby uzyskać szczegółowe informacje na temat każdej techniki, zobacz DDP, FSDP i DeepSpeed.

Przykładowe notesy według techniki i struktury

Poniższa tabela organizuje przykładowe notesy według używanej struktury/biblioteki i zastosowanej techniki równoległości. W jednej komórce może pojawić się wiele notesów.

Struktura/biblioteka	Przykłady protokołu DDP	Przykłady FSDP	Przykłady deepSpeed
PyTorch (natywny)	Prosta sieć neuronowa MLP Wykrywanie obrazów RetinaNet	Transformator parametru 10M	—
Huggingface TRL	Dostrojenie Gpt OSS 20B	Dostrojenie Gpt OSS 120B	Dostrojenie Llama 3.2 1B
Unsloth	Dostrojenie Llama 3.2 3B	—	—
Axolotl	Dostrojenie Olmo3 7B	—	—
Mosaic LLM Foundry	Dostrojenie Llama 3.2 8B	—	—
Lightning	System rekomendatora z dwoma wieżami	—	—

Wprowadzenie

Skorzystaj z poniższych samouczków, aby rozpocząć pracę z bezserwerową biblioteką języka Python procesora GPU na potrzeby trenowania rozproszonego:

Tutorial	Opis
Środowisko uruchomieniowe sztucznej inteligencji z procesorami GPU H100	Dowiedz się, jak używać środowiska databricks AI Runtime z akceleratorami H100 do uruchamiania rozproszonych obciążeń procesora GPU przy użyciu biblioteki języka Python serverless_gpu.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-21