Bagikan melalui


Pelatihan terdistribusi dengan distributor DeepSpeed

Artikel ini menjelaskan cara melakukan pelatihan terdistribusi pada model ML PyTorch menggunakan distributor DeepSpeed.

Distributor DeepSpeed dibangun di atas TorchDistributor dan merupakan solusi yang direkomendasikan untuk pelanggan dengan model yang membutuhkan daya komputasi yang lebih tinggi, tetapi dibatasi oleh batasan memori.

Pustaka DeepSpeed adalah pustaka sumber terbuka yang dikembangkan oleh Microsoft dan tersedia di Databricks Runtime 14.0 ML atau yang lebih baru. Ini menawarkan penggunaan memori yang dioptimalkan, mengurangi overhead komunikasi, dan paralelisme alur tingkat lanjut yang memungkinkan penskalaan model dan pelaksanaan pelatihan yang tidak dapat dicapai pada perangkat keras standar.

Berikut ini adalah contoh skenario di mana distributor DeepSpeed bermanfaat:

  • Memori GPU rendah.
  • Pelatihan model besar.
  • Data masukan yang besar, seperti selama inferensi batch.

Contoh buku catatan untuk pelatihan terdistribusi dengan DeepSpeed

Contoh notebook berikut menunjukkan cara melakukan pelatihan terdistribusi dengan distributor DeepSpeed.

Menyempurnakan Obrolan Llama 2 7B dengan notebook DeepspeedTorchDistributor

Dapatkan buku catatan