Aracılığıyla paylaş


Çoklu GPU dağıtık eğitim

Önemli

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Bu sayfada, AI Çalışma Zamanı kullanılarak çok GPUlu dağıtılmış eğitim için not defteri örnekleri yer alır. Bu örneklerde, gelişmiş performans için eğitimin birden çok GPU ve düğüm arasında nasıl ölçeklendirilecekleri gösterilmektedir.

Uyarı

Çoklu GPU dağıtılmış eğitimi H100 GPU'larda desteklenir.

Paralellik tekniğinizi seçin

Model eğitiminizi birden çok GPU arasında ölçeklendirirken, doğru paralellik tekniğini seçmek model boyutunuza, kullanılabilir GPU belleğinize ve performans gereksinimlerinize bağlıdır.

Teknik Kullanılması gereken durumlar
DDP (Dağıtılmış Veri Paralel) Tam model tek GPU belleğine uyar; veri aktarım hızını ölçeklendirme ihtiyacı
FSDP (Tam Parçalı Veri Paralel) Tek GPU belleğine sığmayan çok büyük modeller
DeepSpeed ZeRO Gelişmiş bellek iyileştirme gereksinimlerine sahip büyük modeller

Her teknik hakkında ayrıntılı bilgi için bkz. DDP, FSDP ve DeepSpeed.

Teknik ve çerçeveye göre örnek not defterleri

Aşağıdaki tablo, örnek not defterlerini kullandığınız çerçeveye/kitaplığa ve uygulanan paralellik tekniğine göre düzenler. Tek bir hücrede birden çok not defteri görünebilir.

Çerçeve/Kitaplık DDP örnekleri FSDP örnekleri DeepSpeed örnekleri
PyTorch (doğal) Basit MLP sinir ağı
RetinaNet görüntü algılama
10M parametre transformatörü
Huggingface TRL Gpt OSS 20B'de ince ayar yapma Gpt OSS 120B'yi ince ayar yap Lama 3.2 1B ince ayar
Serbest Bırakma Llama 3.2 3B'yi ince ayar yapın
Axolotl Olmo3 7B'yi ince ayarla
Mozaik LLM Foundry Llama 3.2 8B'yi ince ayar yapın
Yıldırım İki kuleli tavsiye sistemi

Başlayın

Dağıtılmış eğitim için sunucusuz GPU Python kitaplığını kullanmaya başlamak için aşağıdaki öğreticileri kullanın:

Kılavuz Açıklama
H100 GPU'ları ile Yapay Zeka Çalışma Zamanı Serverless_gpu Python kitaplığını kullanarak dağıtılmış GPU iş yüklerini çalıştırmak için H100 hızlandırıcılarıyla Databricks AI Runtime'ı kullanmayı öğrenin.