Bagikan melalui


Pelatihan terdistribusi menggunakan DeepSpeed

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini memiliki contoh notebook untuk pelatihan terdistribusi menggunakan DeepSpeed pada komputasi GPU Tanpa Server. DeepSpeed menyediakan teknik pengoptimalan memori tingkat lanjut melalui tahap ZeRO (Zero Redundancy Optimizer), memungkinkan pelatihan model besar yang efisien.

Kapan menggunakan DeepSpeed

Gunakan DeepSpeed saat:

  • Anda memerlukan pengoptimalan memori tingkat lanjut di luar FSDP standar
  • Anda ingin kontrol yang sangat detail atas pemecahan status pengoptimal (ZeRO Stage 1, 2, atau 3)
  • Anda memerlukan fitur tambahan seperti fusi akumulasi gradien atau pemindahan beban ke CPU
  • Anda bekerja dengan model bahasa besar (parameter 1B hingga 100B+)

Untuk kasus penggunaan yang lebih sederhana, pertimbangkan DDP. Untuk pelatihan model besar asli PyTorch, lihat FSDP.

Diawasi penyempurnaan menggunakan TRL dan DeepSpeed ZeRO Stage 3

Notebook ini menunjukkan cara menggunakan API Python GPU Tanpa Server untuk menjalankan penyempurnaan yang diawasi (SFT) menggunakan pustaka Transformer Reinforcement Learning (TRL) dengan pengoptimalan DeepSpeed ZeRO Stage 3 pada satu simpul GPU A10. Pendekatan ini dapat diperluas ke pengaturan multi-simpul.

TRL DeepSpeed

Dapatkan buku catatan