Trenowanie rozproszone przy użyciu technologii DeepSpeed

Ważna

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notesów do trenowania rozproszonego przy użyciu biblioteki DeepSpeed w środowisku uruchomieniowym sztucznej inteligencji. Technologia DeepSpeed zapewnia zaawansowane techniki optymalizacji pamięci dzięki etapom zeRO (Zero Redundancy Optimizer), umożliwiając wydajne trenowanie dużych modeli.

Kiedy używać rozwiązania DeepSpeed

Użyj funkcji DeepSpeed, gdy:

Potrzebna jest zaawansowana optymalizacja pamięci poza standardową usługą FSDP
Potrzebujesz szczegółowej kontroli nad fragmentowaniem stanu optymalizatora (ZeRO Stage 1, 2 lub 3)
Potrzebujesz dodatkowych funkcji, takich jak fuzja akumulacji gradientów lub odciążanie procesora
Pracujesz z dużymi modelami językowymi (1 do 100+ miliardów parametrów)

W przypadku prostszych przypadków użycia rozważ użycie protokołu DDP. Aby uzyskać informacje na temat trenowania dużych modeli natywnych dla platformy PyTorch, zobacz FSDP.

Examples

Tutorial	Opis
Nadzorowane dostrajanie przy użyciu TRL i DeepSpeed ZeRO Stage 3	Użyj bezserwerowego interfejsu API języka Python dla GPU, aby uruchomić nadzorowane dostrajanie (SFT) przy użyciu biblioteki transformerowego uczenia wzmacnianego (TRL) z optymalizacją DeepSpeed ZeRO Stage 3 na jednowęzłowym GPU A10.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-21

Udostępnij za pośrednictwem

Trenowanie rozproszone przy użyciu technologii DeepSpeed

Kiedy używać rozwiązania DeepSpeed

Examples

Opinia

Dodatkowe zasoby