Bagikan melalui


Pelatihan terdistribusi dengan distributor DeepSpeed

Artikel ini menjelaskan cara melakukan pelatihan terdistribusi pada model ML PyTorch menggunakan distributor DeepSpeed .

Distributor DeepSpeed dibangun di atas TorchDistributor dan merupakan solusi yang direkomendasikan untuk pelanggan dengan model yang membutuhkan daya komputasi yang lebih tinggi, tetapi dibatasi oleh batasan memori.

Pustaka DeepSpeed adalah pustaka sumber terbuka yang dikembangkan oleh Microsoft dan tersedia di Databricks Runtime 14.0 ML atau yang lebih baru. Ini menawarkan penggunaan memori yang dioptimalkan, mengurangi overhead komunikasi, dan paralelisme alur canggih yang memungkinkan penskalaan model dan prosedur pelatihan yang sebaliknya tidak akan dapat dicapai pada perangkat keras standar.

Berikut ini adalah contoh skenario di mana distributor DeepSpeed bermanfaat:

  • Memori GPU rendah.
  • Pelatihan model besar.
  • Data input besar, seperti selama inferensi batch.

Contoh buku catatan untuk pelatihan terdistribusi dengan DeepSpeed

Contoh buku catatan berikut menunjukkan cara melakukan pelatihan terdistribusi dengan distributor DeepSpeed.

Menyempurnakan Llama 2 7B Chat dengan DeepspeedTorchDistributor notebook

Mendapatkan buku catatan