Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.
Halaman ini memiliki contoh-contoh notebook untuk penggunaan pelatihan Fully Sharded Data Parallel (FSDP) di Runtime AI. FSDP memecah parameter model, gradien, dan status pengoptimal di seluruh GPU, memungkinkan pelatihan model yang sangat besar yang tidak sesuai dalam satu memori GPU.
Kapan menggunakan FSDP
Gunakan FSDP saat:
- Model Anda terlalu besar untuk masuk ke dalam kapasitas memori satu GPU
- Anda perlu melatih model dalam rentang parameter 20B hingga 120B+
- Anda menginginkan lebih banyak efisiensi memori daripada yang disediakan DDP
Untuk model yang lebih kecil yang pas dalam memori GPU tunggal, pertimbangkan DDP untuk kesederhanaan. Untuk fitur pengoptimalan memori tingkat lanjut, lihat DeepSpeed.
Examples
| Tutorial | Deskripsi |
|---|---|
| Melatih model Transformer dengan 10 juta parameter menggunakan FSDP2 | Notebook ini menunjukkan cara pelatihan model Transformer dengan 10 juta parameter secara terdistribusi menggunakan pustaka FSDP2. |
| Pelatihan OpenAI GPT-OSS model 120B menggunakan TRL dan FSDP | Notebook ini menunjukkan cara menjalankan penyempurnaan yang diawasi (SFT) pada model GPT-OSS 120B menggunakan FSDP2 dan pustaka Transformer Reinforcement Learning (TRL). Contoh ini memanfaatkan FSDP untuk mengurangi konsumsi memori dan DDP untuk menskalakan ukuran batch global di 8 GPU H100. |