使用 DeepSpeed 分發器進行分散式訓練

發行項
10/31/2024

本文說明如何使用 DeepSpeed 分發器，在 PyTorch ML 模型上執行分散式訓練。

DeepSpeed 分發器建置在 TorchDistributor 之上，是具有需要較高計算能力但受記憶體限制之模型的客戶的建議解決方案。

DeepSpeed 程式庫是由 Microsoft 開發的開放原始碼程式庫，可在 Databricks Runtime 14.0 ML 或更新版本中使用。它提供最佳化的記憶體使用量、降低的通訊額外負荷以及進階管線平行處理，允許調整模型和訓練程序，否則這些在標準硬體上無法實現。

以下是 DeepSpeed 分發器有利的範例案例：

GPU 記憶體不足。
大型模型訓練。
大型輸入資料，例如批次推斷期間。

使用 DeepSpeed 進行分散式訓練的範例筆記本

下列筆記本範例示範如何使用 DeepSpeed 分發器執行分散式訓練。

使用 `DeepspeedTorchDistributor` 筆記本微調 Llama 2 7B Chat

取得筆記本