Trenowanie rozproszone za pomocą dystrybutora DeepSpeed

2025-03-31

W tym artykule opisano sposób wykonywania trenowania rozproszonego na modelach uczenia maszynowego PyTorch przy użyciu dystrybutora DeepSpeed.

Dystrybutor DeepSpeed jest oparty na TorchDistributor i jest zalecanym rozwiązaniem dla klientów z modelami wymagającymi wyższej mocy obliczeniowej, ale ogranicza je dostępna pamięć.

Biblioteka DeepSpeed to biblioteka typu open source opracowana przez firmę Microsoft i jest dostępna w środowisku Databricks Runtime 14.0 ML lub nowszym. Oferuje zoptymalizowane użycie pamięci, mniejsze obciążenie komunikacji i zaawansowaną równoległość potoków, które umożliwiają skalowanie modeli i procedur szkoleniowych, które w przeciwnym razie byłyby nie do dostosowania na standardowym sprzęcie.

Poniżej przedstawiono przykładowe scenariusze, w których dystrybutor DeepSpeed jest korzystny:

Mała ilość pamięci procesora GPU.
Trenowanie dużych modeli.
Duże dane wejściowe, takie jak podczas wnioskowania wsadowego.

Przykładowy notes do trenowania rozproszonego za pomocą technologii DeepSpeed

W poniższym przykładzie notesu pokazano, jak przeprowadzić trenowanie rozproszone za pomocą dystrybutora DeepSpeed.

Dostrajanie czatu Llama 2 7B za pomocą notesu DeepspeedTorchDistributor

Pobierz notatnik

Udostępnij za pośrednictwem

Trenowanie rozproszone za pomocą dystrybutora DeepSpeed

Przykładowy notes do trenowania rozproszonego za pomocą technologii DeepSpeed

Dostrajanie czatu Llama 2 7B za pomocą notesu DeepspeedTorchDistributor

Opinia

Dodatkowe zasoby