Bagikan melalui


Pelatihan multi-GPU terdistribusi

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini memiliki contoh notebook untuk pelatihan terdistribusi multi-GPU menggunakan AI Runtime. Contoh-contoh ini menunjukkan cara menskalakan pelatihan di beberapa GPU dan simpul untuk meningkatkan performa.

Nota

Pelatihan terdistribusi multi-GPU didukung pada GPU H100.

Pilih teknik paralelisme Anda

Saat menskalakan pelatihan model Anda di beberapa GPU, memilih teknik paralelisme yang tepat tergantung pada ukuran model, memori GPU yang tersedia, dan persyaratan performa Anda.

Teknik Kapan digunakan
DDP (Paralel Data Terdistribusi) Model lengkap cocok dalam memori GPU tunggal; perlu menskalakan throughput data
FSDP (Paralel Data Sepenuhnya Terpecah) Model yang sangat besar yang tidak cocok dalam memori GPU tunggal
DeepSpeed ZeRO Model besar dengan kebutuhan pengoptimalan memori tingkat lanjut

Untuk informasi terperinci tentang setiap teknik, lihat DDP, FSDP, dan DeepSpeed.

Contoh buku catatan berdasarkan teknik dan kerangka kerja

Tabel berikut ini mengatur contoh buku catatan menurut kerangka kerja/pustaka yang Anda gunakan dan teknik paralelisme diterapkan. Beberapa buku catatan mungkin muncul dalam satu sel.

Kerangka Kerja/Pustaka Contoh DDP Contoh FSDP Contoh penggunaan DeepSpeed
PyTorch (bawaan) Jaringan neural MLP sederhana
Deteksi gambar RetinaNet
Transformer parameter 10M
Huggingface TRL Menyempurnakan Gpt OSS 20B Menyempurnakan Gpt OSS 120B Menyempurnakan Llama 3.2 1B
Batalkan alas Mengoptimalkan Llama 3.2 3B
Axolotl Mengoptimalkan Olmo3 7B
Mosaic LLM Foundry Menyempurnakan Llama 3.2 8B
Kilat Sistem pemberi rekomendasi dua menara

Get started

Gunakan tutorial berikut untuk mulai menggunakan pustaka Python GPU tanpa server untuk pelatihan terdistribusi:

Tutorial Deskripsi
Runtime AI dengan GPU H100 Pelajari cara menggunakan Databricks AI Runtime dengan akselerator H100 untuk menjalankan beban kerja GPU terdistribusi menggunakan pustaka serverless_gpu Python.