Pelatihan multi-GPU terdistribusi

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini memiliki contoh notebook untuk pelatihan terdistribusi multi-GPU menggunakan AI Runtime. Contoh-contoh ini menunjukkan cara menskalakan pelatihan di beberapa GPU dan simpul untuk meningkatkan performa.

Nota

Pelatihan terdistribusi multi-GPU didukung pada GPU H100.

Pilih teknik paralelisme Anda

Saat menskalakan pelatihan model Anda di beberapa GPU, memilih teknik paralelisme yang tepat tergantung pada ukuran model, memori GPU yang tersedia, dan persyaratan performa Anda.

Teknik	Kapan digunakan
DDP (Paralel Data Terdistribusi)	Model lengkap cocok dalam memori GPU tunggal; perlu menskalakan throughput data
FSDP (Paralel Data Sepenuhnya Terpecah)	Model yang sangat besar yang tidak cocok dalam memori GPU tunggal
DeepSpeed ZeRO	Model besar dengan kebutuhan pengoptimalan memori tingkat lanjut

Untuk informasi terperinci tentang setiap teknik, lihat DDP, FSDP, dan DeepSpeed.

Contoh buku catatan berdasarkan teknik dan kerangka kerja

Tabel berikut ini mengatur contoh buku catatan menurut kerangka kerja/pustaka yang Anda gunakan dan teknik paralelisme diterapkan. Beberapa buku catatan mungkin muncul dalam satu sel.

Kerangka Kerja/Pustaka	Contoh DDP	Contoh FSDP	Contoh penggunaan DeepSpeed
PyTorch (bawaan)	Jaringan neural MLP sederhana Deteksi gambar RetinaNet	Transformer parameter 10M	—
Huggingface TRL	Menyempurnakan Gpt OSS 20B	Menyempurnakan Gpt OSS 120B	Menyempurnakan Llama 3.2 1B
Batalkan alas	Mengoptimalkan Llama 3.2 3B	—	—
Axolotl	Mengoptimalkan Olmo3 7B	—	—
Mosaic LLM Foundry	Menyempurnakan Llama 3.2 8B	—	—
Kilat	Sistem pemberi rekomendasi dua menara	—	—

Get started

Gunakan tutorial berikut untuk mulai menggunakan pustaka Python GPU tanpa server untuk pelatihan terdistribusi:

Tutorial	Deskripsi
Runtime AI dengan GPU H100	Pelajari cara menggunakan Databricks AI Runtime dengan akselerator H100 untuk menjalankan beban kerja GPU terdistribusi menggunakan pustaka serverless_gpu Python.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-03-21