Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.
Halaman ini memiliki contoh buku catatan untuk menggunakan pelatihan Paralel Data Terdistribusi (DDP) pada komputasi GPU Tanpa Server. DDP adalah teknik paralelisme yang paling umum untuk pelatihan terdistribusi, di mana model lengkap direplikasi pada setiap GPU dan batch data dibagi di seluruh GPU.
Kapan menggunakan DDP
Gunakan DDP saat:
- Model Anda sepenuhnya masuk ke dalam memori satu GPU
- Anda ingin menskalakan pelatihan dengan meningkatkan throughput data
- Anda memerlukan pendekatan pelatihan terdistribusi paling sederhana dengan dukungan otomatis di sebagian besar kerangka kerja
Untuk model yang lebih besar yang tidak cocok dalam memori GPU tunggal, pertimbangkan FSDP atau DeepSpeed sebagai gantinya.
Melatih jaringan saraf perceptron multilayer sederhana (MLP) menggunakan PyTorch DDP
Notebook berikut menunjukkan pelatihan terdistribusi jaringan saraf perceptron multilayer (MLP) sederhana menggunakan modul DDP PyTorch di Azure Databricks dengan sumber daya GPU tanpa server.
PyTorch DDP
Pelatihan OpenAI GPT-OSS model 20B pada 8xH100 menggunakan TRL dan DDP
Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menjalankan penyempurnaan yang diawasi (SFT) pada model GPT-OSS 20B dari Hugging Face menggunakan pustaka Transformer Reinforcement Learning (TRL). Contoh ini memanfaatkan DDP di semua 8 GPU H100 pada simpul untuk menskalakan ukuran batch global.
TRL DDP
Penyempurnaan terdistribusi Llama 3.2 3B menggunakan Unsloth
Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Llama 3.2 3B dengan pustaka Unsloth di 8 GPU A10. Unsloth menyediakan pengoptimalan pelatihan yang hemat memori dan menggunakan DDP di balik layar melalui Hugging Face Accelerate.
Unsloth DDP
Penyempurnaan terdistribusi Olmo3 7B menggunakan Axolotl
Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Olmo3 7B dengan pustaka Axolotl di 16 H100 GPU. Axolotl dirancang untuk menyederhanakan pasca-pelatihan dan penyempurnaan untuk LLM terbaru.
Axolotl DDP
Penyempurnaan terdistribusi Llama 3.2 8B menggunakan Mosaic LLM Foundry
Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menyempurnakan model Llama 3.2 8B dengan pustaka Mosaic LLM Foundry di 16 GPU A10. Mosaic LLM Foundry menyediakan API yang mudah digunakan, efisien, dan fleksibel untuk melatih model bahasa besar.
Notebook
Pelatihan terdistribusi menggunakan Ray Train (visi komputer)
Notebook ini mendemonstrasikan pelatihan terdistribusi model PyTorch ResNet pada dataset FashionMNIST menggunakan Ray Train dan Ray Data pada kluster GPU Serverless Databricks. Ray Train menyediakan orkestrasi pelatihan terdistribusi tingkat tinggi dan menggunakan DDP sebagai strategi paralelisme yang mendasar. Contoh ini mencakup penyiapan penyimpanan Katalog Unity, mengonfigurasi Ray untuk pelatihan GPU multi-simpul, mencatat dan mendaftarkan model dengan MLflow, dan mengevaluasi performa model.
Ray DDP
Melatih sistem pemberi rekomendasi dua menara menggunakan PyTorch Lightning
Notebook ini menunjukkan cara melatih model rekomendasi dua menara menggunakan PyTorch Lightning pada komputasi GPU tanpa server. PyTorch Lightning menyediakan antarmuka tingkat tinggi yang secara otomatis menangani konfigurasi DDP untuk pelatihan multi-GPU. Contohnya termasuk persiapan data menggunakan format Mosaic Streaming (MDS) dan pelatihan terdistribusi di seluruh GPU A10 atau H100.
Lihat halaman Contoh rekomendasi pembelajaran mendalam untuk buku catatan lengkap, termasuk:
- Persiapan data dan konversi format MDS
- Pelatihan pemberi rekomendasi dua menara dengan PyTorch Lightning