Aracılığıyla paylaş


Dağıtılmış Veri Paralel (DDP) eğitimi

Önemli

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Bu sayfada, AI Çalışma Zamanı'nda Dağıtılmış Veri Paralel (DDP) eğitimini kullanmaya yönelik not defteri örnekleri yer alır. DDP, dağıtılmış eğitim için en yaygın paralellik tekniğidir. Burada tüm model her GPU'da çoğaltılır ve veri toplu işlemleri GPU'lar arasında bölünür.

DDP ne zaman kullanılır?

Aşağıdaki durumlarda DDP kullanın:

  • Modeliniz tek bir GPU'nun belleğine tamamen sığar
  • Veri aktarım hızını artırarak eğitimi ölçeklendirmek istiyorsunuz
  • Çoğu çerçevede otomatik destekle en basit dağıtılmış eğitim yaklaşımına ihtiyacınız vardır

Tek GPU belleğine sığmayan daha büyük modeller için bunun yerine FSDP veya DeepSpeed'i göz önünde bulundurun.

Örnekler

Kılavuz Açıklama
PyTorch DDP kullanarak basit bir çok katmanlı algılama (MLP) sinir ağını eğitme Bu not defteri, sunucusuz GPU kaynaklarıyla Azure Databricks'te PyTorch'un DDP modülünü kullanarak basit bir çok katmanlı algı (MLP) sinir ağının dağıtılmış eğitimini gösterir.
TRL ve DDP kullanarak 8xH100 üzerinde OpenAI GPT-OSS 20B modelini eğitma Bu not defteri, Transformer Reinforcement Learning (TRL) kitaplığını kullanarak Hugging Face'den GPT-OSS 20B modelinde denetimli ince ayarlama (SFT) çalıştırmak için Sunucusuz GPU Python API'sinin nasıl kullanılacağını gösterir. Bu örnek, genel toplu iş boyutunu ölçeklendirmek için düğümdeki tüm 8 H100 GPU'da DDP'yi kullanır.
Unsloth kullanarak Llama 3.2 3B üzerinde dağıtılmış ince ayar yapma Bu not defteri, 8 A10 GPU'da Unsloth kitaplığına sahip bir Llama 3.2 3B modeline ince ayar yapmak için Sunucusuz GPU Python API'sinin nasıl kullanılacağını gösterir. Unsloth, bellek açısından verimli eğitim optimizasyonları sağlar ve Hugging Face Accelerate üzerinden gizli olarak DDP kullanır.
Axolotl kullanarak Olmo3 7B'nin ince ayarlarını dağıtılmış olarak yapmak Bu not defteri, 16 H100 GPU'da Axolotl kitaplığıyla Olmo3 7B modeline ince ayar yapmak için Sunucusuz GPU Python API'sinin nasıl kullanılacağını gösterir. Axolotl, en son LLM'ler için eğitim sonrası ve ince ayarlamayı kolaylaştıracak şekilde tasarlanmıştır.
PyTorch Lightning kullanarak iki kuleli bir öneri sistemini eğitme Bu not defteri sunucusuz GPU'da PyTorch Lightning kullanarak iki kuleli bir öneri modelini eğitmeyi gösterir. PyTorch Lightning, çoklu GPU eğitimi için DDP yapılandırmasını otomatik olarak işleyen üst düzey bir arabirim sağlar. Örnek, Mozaik Akış (MDS) biçimini kullanarak veri hazırlamayı ve A10 veya H100 GPU'lar arasında dağıtılmış eğitimi içerir.
Aşağıdakiler de dahil olmak üzere tüm not defterleri için Derin öğrenme önerisi örnekleri sayfasına bakın:
  • Veri hazırlama ve MDS biçimi dönüştürme
  • PyTorch Lightning ile iki kuleli öneri eğitimi

PyTorch DDP kullanarak basit bir çok katmanlı algılama (MLP) sinir ağını eğitme

Aşağıdaki not defteri, sunucusuz GPU kaynaklarıyla Azure Databricks'te PyTorch'un DDP modülünü kullanarak basit bir çok katmanlı algılama (MLP) sinir ağının dağıtılmış eğitimini gösterir.

PyTorch DDP

Dizüstü bilgisayar al

PyTorch Lightning kullanarak iki kuleli bir öneri sistemini eğitme

Bu not defteri sunucusuz GPU işlemlerinde PyTorch Lightning kullanarak iki kuleli bir öneri modelini eğitmeyi gösterir. PyTorch Lightning, çoklu GPU eğitimi için DDP yapılandırmasını otomatik olarak işleyen üst düzey bir arabirim sağlar. Örnek, Mozaik Akış (MDS) biçimini kullanarak veri hazırlamayı ve A10 veya H100 GPU'lar arasında dağıtılmış eğitimi içerir.

Aşağıdakiler de dahil olmak üzere tüm not defterleri için Derin öğrenme önerisi örnekleri sayfasına bakın:

  • Veri hazırlama ve MDS biçimi dönüştürme
  • PyTorch Lightning ile iki kuleli öneri eğitimi