Bagikan melalui


Pelatihan Paralel Data Terdistribusi (DDP)

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini memiliki contoh buku catatan untuk menggunakan pelatihan Paralel Data Terdistribusi (DDP) pada Runtime AI. DDP adalah teknik paralelisme yang paling umum untuk pelatihan terdistribusi, di mana model lengkap direplikasi pada setiap GPU dan batch data dibagi di seluruh GPU.

Kapan menggunakan DDP

Gunakan DDP saat:

  • Model Anda sepenuhnya masuk ke dalam memori satu GPU
  • Anda ingin menskalakan pelatihan dengan meningkatkan throughput data
  • Anda memerlukan pendekatan pelatihan terdistribusi paling sederhana dengan dukungan otomatis di sebagian besar kerangka kerja

Untuk model yang lebih besar yang tidak cocok dalam memori GPU tunggal, pertimbangkan FSDP atau DeepSpeed sebagai gantinya.

Examples

Tutorial Deskripsi
Melatih jaringan saraf perceptron multilayer sederhana (MLP) menggunakan PyTorch DDP Notebook ini menunjukkan pelatihan terdistribusi jaringan saraf perceptron multilayer (MLP) sederhana menggunakan modul DDP PyTorch di Azure Databricks dengan sumber daya GPU tanpa server.
Pelatihan OpenAI GPT-OSS model 20B pada 8xH100 menggunakan TRL dan DDP Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menjalankan penyempurnaan yang diawasi (SFT) pada model GPT-OSS 20B dari Hugging Face menggunakan pustaka Transformer Reinforcement Learning (TRL). Contoh ini memanfaatkan DDP di semua 8 GPU H100 pada simpul untuk menskalakan ukuran batch global.
Pelatihan ulang terdistribusi untuk Llama 3.2 3B menggunakan Unsloth Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Llama 3.2 3B dengan pustaka Unsloth di 8 GPU A10. Unsloth menyediakan optimasi pelatihan yang efisien dalam penggunaan memori dan menggunakan DDP di balik layar melalui Hugging Face Accelerate.
Penyempurnaan terdistribusi Olmo3 7B menggunakan Axolotl Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Olmo3 7B dengan pustaka Axolotl di 16 H100 GPU. Axolotl dirancang untuk menyederhanakan pasca-pelatihan dan penyempurnaan untuk LLM terbaru.
Melatih sistem pemberi rekomendasi dua menara menggunakan PyTorch Lightning Notebook ini menunjukkan cara melatih model rekomendasi dua menara menggunakan PyTorch Lightning pada GPU tanpa server. PyTorch Lightning menyediakan antarmuka tingkat tinggi yang secara otomatis menangani konfigurasi DDP untuk pelatihan multi-GPU. Contohnya termasuk persiapan data menggunakan format Mosaic Streaming (MDS) dan pelatihan terdistribusi di seluruh GPU A10 atau H100.
Lihat halaman Contoh rekomendasi pembelajaran mendalam untuk buku catatan lengkap, termasuk:
  • Persiapan data dan konversi format MDS
  • Pelatihan pemberi rekomendasi dua menara dengan PyTorch Lightning

Melatih jaringan saraf perceptron multilayer sederhana (MLP) menggunakan PyTorch DDP

Notebook berikut menunjukkan pelatihan terdistribusi jaringan saraf perceptron multilayer (MLP) sederhana menggunakan modul DDP PyTorch di Azure Databricks dengan sumber daya GPU tanpa server.

PyTorch DDP

Dapatkan buku catatan

Melatih sistem pemberi rekomendasi dua menara menggunakan PyTorch Lightning

Notebook ini menunjukkan cara melatih model rekomendasi dua menara menggunakan PyTorch Lightning pada komputasi GPU tanpa server. PyTorch Lightning menyediakan antarmuka tingkat tinggi yang secara otomatis menangani konfigurasi DDP untuk pelatihan multi-GPU. Contohnya termasuk persiapan data menggunakan format Mosaic Streaming (MDS) dan pelatihan terdistribusi di seluruh GPU A10 atau H100.

Lihat halaman Contoh rekomendasi pembelajaran mendalam untuk buku catatan lengkap, termasuk:

  • Persiapan data dan konversi format MDS
  • Pelatihan pemberi rekomendasi dua menara dengan PyTorch Lightning