Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.
Bu sayfada, Sunucusuz GPU işlemlerinde DeepSpeed kullanılarak dağıtılmış eğitime yönelik not defteri örnekleri bulunur. DeepSpeed, ZeRO (Sıfır Yedeklilik İyileştiricisi) aşamaları aracılığıyla gelişmiş bellek iyileştirme teknikleri sağlayarak büyük modellerin verimli bir şekilde eğitilmesini sağlar.
DeepSpeed ne zaman kullanılır?
Aşağıdaki durumlarda DeepSpeed kullanın:
- Standart FSDP'nin ötesinde gelişmiş bellek iyileştirmeye ihtiyacınız var
- Optimizatör durumu parçalama üzerinde ince ayar kontrol istiyorsunuz (ZeRO Aşama 1, 2 veya 3)
- Gradyan birikimi füzyonu veya CPU boşaltma gibi ek özelliklere ihtiyacınız var
- Büyük dil modelleriyle çalışıyorsunuz (1B ile 100B+ parametreler)
Daha basit kullanım örnekleri için DDP'yi göz önünde bulundurun. PyTorch yerel büyük model eğitimi için bkz. FSDP.
TRL ve DeepSpeed ZeRO Stage 3 kullanarak denetimli ince ayarlama
Bu not defteri, Tek düğümlü A10 GPU üzerinde DeepSpeed ZeRO Stage 3 iyileştirmesi ile Transformer Reinforcement Learning (TRL) kitaplığını kullanarak denetimli ince ayarlama (SFT) çalıştırmak için Sunucusuz GPU Python API'sinin nasıl kullanılacağını gösterir. Bu yaklaşım çok düğümlü kurulumlara genişletilebilir.