Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menjelaskan cara melakukan pelatihan terdistribusi pada model ML PyTorch menggunakan distributor DeepSpeed.
Distributor DeepSpeed dibangun di atas TorchDistributor dan merupakan solusi yang direkomendasikan untuk pelanggan dengan model yang membutuhkan daya komputasi yang lebih tinggi, tetapi dibatasi oleh batasan memori.
Pustaka DeepSpeed adalah pustaka sumber terbuka yang dikembangkan oleh Microsoft dan tersedia di Databricks Runtime 14.0 ML atau yang lebih baru. Ini menawarkan penggunaan memori yang dioptimalkan, mengurangi overhead komunikasi, dan paralelisme alur tingkat lanjut yang memungkinkan penskalaan model dan pelaksanaan pelatihan yang tidak dapat dicapai pada perangkat keras standar.
Berikut ini adalah contoh skenario di mana distributor DeepSpeed bermanfaat:
- Memori GPU rendah.
- Pelatihan model besar.
- Data masukan yang besar, seperti selama inferensi batch.
Contoh buku catatan untuk pelatihan terdistribusi dengan DeepSpeed
Contoh notebook berikut menunjukkan cara melakukan pelatihan terdistribusi dengan distributor DeepSpeed.