DeepSpeed dağıtımcısı ile dağıtılmış eğitim
Bu makalede, DeepSpeed dağıtımcısını kullanarak PyTorch ML modellerinde dağıtılmış eğitimin nasıl gerçekleştirildiği açıklanır.
DeepSpeed distribütörü TorchDistributor'un üzerine kurulmuştur ve daha yüksek işlem gücü gerektiren ancak bellek kısıtlamalarıyla sınırlı olan modellere sahip müşteriler için önerilen bir çözümdür.
DeepSpeed kitaplığı, Microsoft tarafından geliştirilen bir açık kaynak kitaplıktır ve Databricks Runtime 14.0 ML veya üzerinde kullanılabilir. İyileştirilmiş bellek kullanımı, azaltılmış iletişim yükü ve standart donanımda erişilemeyen modellerin ve eğitim yordamlarının ölçeklendirilmesini sağlayan gelişmiş işlem hattı paralelliği sunar.
Aşağıda, DeepSpeed dağıtımcısının yararlı olduğu örnek senaryolar verilmiştir:
- Düşük GPU belleği.
- Büyük model eğitimi.
- Toplu çıkarım sırasında olduğu gibi büyük giriş verileri.
DeepSpeed ile dağıtılmış eğitim için örnek not defteri
Aşağıdaki not defteri örneği, DeepSpeed dağıtımcısı ile dağıtılmış eğitimin nasıl gerçekleştirileceklerini gösterir.