Bagikan melalui


Pelatihan Paralel Data Terdistribusi (DDP)

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini memiliki contoh buku catatan untuk menggunakan pelatihan Paralel Data Terdistribusi (DDP) pada komputasi GPU Tanpa Server. DDP adalah teknik paralelisme yang paling umum untuk pelatihan terdistribusi, di mana model lengkap direplikasi pada setiap GPU dan batch data dibagi di seluruh GPU.

Kapan menggunakan DDP

Gunakan DDP saat:

  • Model Anda sepenuhnya masuk ke dalam memori satu GPU
  • Anda ingin menskalakan pelatihan dengan meningkatkan throughput data
  • Anda memerlukan pendekatan pelatihan terdistribusi paling sederhana dengan dukungan otomatis di sebagian besar kerangka kerja

Untuk model yang lebih besar yang tidak cocok dalam memori GPU tunggal, pertimbangkan FSDP atau DeepSpeed sebagai gantinya.

Melatih jaringan saraf perceptron multilayer sederhana (MLP) menggunakan PyTorch DDP

Notebook berikut menunjukkan pelatihan terdistribusi jaringan saraf perceptron multilayer (MLP) sederhana menggunakan modul DDP PyTorch di Azure Databricks dengan sumber daya GPU tanpa server.

PyTorch DDP

Dapatkan buku catatan

Pelatihan OpenAI GPT-OSS model 20B pada 8xH100 menggunakan TRL dan DDP

Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menjalankan penyempurnaan yang diawasi (SFT) pada model GPT-OSS 20B dari Hugging Face menggunakan pustaka Transformer Reinforcement Learning (TRL). Contoh ini memanfaatkan DDP di semua 8 GPU H100 pada simpul untuk menskalakan ukuran batch global.

TRL DDP

Dapatkan buku catatan

Penyempurnaan terdistribusi Llama 3.2 3B menggunakan Unsloth

Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Llama 3.2 3B dengan pustaka Unsloth di 8 GPU A10. Unsloth menyediakan pengoptimalan pelatihan yang hemat memori dan menggunakan DDP di balik layar melalui Hugging Face Accelerate.

Unsloth DDP

Dapatkan buku catatan

Penyempurnaan terdistribusi Olmo3 7B menggunakan Axolotl

Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Olmo3 7B dengan pustaka Axolotl di 16 H100 GPU. Axolotl dirancang untuk menyederhanakan pasca-pelatihan dan penyempurnaan untuk LLM terbaru.

Axolotl DDP

Dapatkan buku catatan

Penyempurnaan terdistribusi Llama 3.2 8B menggunakan Mosaic LLM Foundry

Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Llama 3.2 8B dengan pustaka Mosaic LLM Foundry di 16 GPU A10. Mosaic LLM Foundry menyediakan API yang mudah digunakan, efisien, dan fleksibel untuk melatih model bahasa besar.

Notebook

Dapatkan buku catatan

Pelatihan terdistribusi menggunakan Ray Train (visi komputer)

Notebook ini mendemonstrasikan pelatihan terdistribusi model PyTorch ResNet pada dataset FashionMNIST menggunakan Ray Train dan Ray Data pada kluster GPU Serverless Databricks. Ray Train menyediakan orkestrasi pelatihan terdistribusi tingkat tinggi dan menggunakan DDP sebagai strategi paralelisme yang mendasar. Contoh ini mencakup penyiapan penyimpanan Katalog Unity, mengonfigurasi Ray untuk pelatihan GPU multi-simpul, mencatat dan mendaftarkan model dengan MLflow, dan mengevaluasi performa model.

Ray DDP

Dapatkan buku catatan

Melatih sistem pemberi rekomendasi dua menara menggunakan PyTorch Lightning

Notebook ini menunjukkan cara melatih model rekomendasi dua menara menggunakan PyTorch Lightning pada komputasi GPU tanpa server. PyTorch Lightning menyediakan antarmuka tingkat tinggi yang secara otomatis menangani konfigurasi DDP untuk pelatihan multi-GPU. Contohnya termasuk persiapan data menggunakan format Mosaic Streaming (MDS) dan pelatihan terdistribusi di seluruh GPU A10 atau H100.

Lihat halaman Contoh rekomendasi pembelajaran mendalam untuk buku catatan lengkap, termasuk:

  • Persiapan data dan konversi format MDS
  • Pelatihan pemberi rekomendasi dua menara dengan PyTorch Lightning