Pelatihan Fully Sharded Data Parallel (FSDP)

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini memiliki contoh-contoh notebook untuk penggunaan pelatihan Fully Sharded Data Parallel (FSDP) di Runtime AI. FSDP memecah parameter model, gradien, dan status pengoptimal di seluruh GPU, memungkinkan pelatihan model yang sangat besar yang tidak sesuai dalam satu memori GPU.

Kapan menggunakan FSDP

Gunakan FSDP saat:

Model Anda terlalu besar untuk masuk ke dalam kapasitas memori satu GPU
Anda perlu melatih model dalam rentang parameter 20B hingga 120B+
Anda menginginkan lebih banyak efisiensi memori daripada yang disediakan DDP

Untuk model yang lebih kecil yang pas dalam memori GPU tunggal, pertimbangkan DDP untuk kesederhanaan. Untuk fitur pengoptimalan memori tingkat lanjut, lihat DeepSpeed.

Examples

Tutorial	Deskripsi
Melatih model Transformer dengan 10 juta parameter menggunakan FSDP2	Notebook ini menunjukkan cara pelatihan model Transformer dengan 10 juta parameter secara terdistribusi menggunakan pustaka FSDP2.
Pelatihan OpenAI GPT-OSS model 120B menggunakan TRL dan FSDP	Notebook ini menunjukkan cara menjalankan penyempurnaan yang diawasi (SFT) pada model GPT-OSS 120B menggunakan FSDP2 dan pustaka Transformer Reinforcement Learning (TRL). Contoh ini memanfaatkan FSDP untuk mengurangi konsumsi memori dan DDP untuk menskalakan ukuran batch global di 8 GPU H100.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-03-21

Bagikan melalui

Pelatihan Fully Sharded Data Parallel (FSDP)

Kapan menggunakan FSDP

Examples

Saran dan Komentar

Sumber Daya Tambahan: