Çoklu GPU dağıtık eğitim

Önemli

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Bu sayfada, AI Çalışma Zamanı kullanılarak çok GPUlu dağıtılmış eğitim için not defteri örnekleri yer alır. Bu örneklerde, gelişmiş performans için eğitimin birden çok GPU ve düğüm arasında nasıl ölçeklendirilecekleri gösterilmektedir.

Uyarı

Çoklu GPU dağıtılmış eğitimi H100 GPU'larda desteklenir.

Paralellik tekniğinizi seçin

Model eğitiminizi birden çok GPU arasında ölçeklendirirken, doğru paralellik tekniğini seçmek model boyutunuza, kullanılabilir GPU belleğinize ve performans gereksinimlerinize bağlıdır.

Teknik	Kullanılması gereken durumlar
DDP (Dağıtılmış Veri Paralel)	Tam model tek GPU belleğine uyar; veri aktarım hızını ölçeklendirme ihtiyacı
FSDP (Tam Parçalı Veri Paralel)	Tek GPU belleğine sığmayan çok büyük modeller
DeepSpeed ZeRO	Gelişmiş bellek iyileştirme gereksinimlerine sahip büyük modeller

Her teknik hakkında ayrıntılı bilgi için bkz. DDP, FSDP ve DeepSpeed.

Teknik ve çerçeveye göre örnek not defterleri

Aşağıdaki tablo, örnek not defterlerini kullandığınız çerçeveye/kitaplığa ve uygulanan paralellik tekniğine göre düzenler. Tek bir hücrede birden çok not defteri görünebilir.

Çerçeve/Kitaplık	DDP örnekleri	FSDP örnekleri	DeepSpeed örnekleri
PyTorch (doğal)	Basit MLP sinir ağı RetinaNet görüntü algılama	10M parametre transformatörü	—
Huggingface TRL	Gpt OSS 20B'de ince ayar yapma	Gpt OSS 120B'yi ince ayar yap	Lama 3.2 1B ince ayar
Serbest Bırakma	Llama 3.2 3B'yi ince ayar yapın	—	—
Axolotl	Olmo3 7B'yi ince ayarla	—	—
Mozaik LLM Foundry	Llama 3.2 8B'yi ince ayar yapın	—	—
Yıldırım	İki kuleli tavsiye sistemi	—	—

Başlayın

Dağıtılmış eğitim için sunucusuz GPU Python kitaplığını kullanmaya başlamak için aşağıdaki öğreticileri kullanın:

Kılavuz	Açıklama
H100 GPU'ları ile Yapay Zeka Çalışma Zamanı	Serverless_gpu Python kitaplığını kullanarak dağıtılmış GPU iş yüklerini çalıştırmak için H100 hızlandırıcılarıyla Databricks AI Runtime'ı kullanmayı öğrenin.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-03-21