Trenowanie rozproszone za pomocą dystrybutora DeepSpeed
W tym artykule opisano sposób wykonywania trenowania rozproszonego na modelach uczenia maszynowego PyTorch przy użyciu dystrybutora DeepSpeed .
Dystrybutor DeepSpeed jest oparty na torchDistributor i jest zalecanym rozwiązaniem dla klientów z modelami, które wymagają wyższej mocy obliczeniowej, ale są ograniczone przez ograniczenia pamięci.
Biblioteka DeepSpeed jest biblioteką typu open source opracowaną przez firmę Microsoft i jest dostępna w środowisku Databricks Runtime 14.0 ML lub nowszym. Oferuje zoptymalizowane użycie pamięci, mniejsze obciążenie komunikacji i zaawansowany równoległość potoków, które umożliwiają skalowanie modeli i procedur szkoleniowych, które w przeciwnym razie byłyby nie do utrzymania na standardowym sprzęcie.
Poniżej przedstawiono przykładowe scenariusze, w których dystrybutor DeepSpeed jest korzystny:
- Mała ilość pamięci procesora GPU.
- Trenowanie dużych modeli.
- Duże dane wejściowe, takie jak podczas wnioskowania wsadowego.
Przykładowy notes do trenowania rozproszonego przy użyciu technologii DeepSpeed
W poniższym przykładzie notesu pokazano, jak przeprowadzić trenowanie rozproszone za pomocą dystrybutora DeepSpeed.