共用方式為


使用 DeepSpeed 散發者進行分散式訓練

本文說明如何使用 DeepSpeed 散發者 ,在 PyTorch ML 模型上執行分散式定型。

DeepSpeed 散發者是以 TorchDistributor 為基礎建置,而且是具有需要較高計算能力但受限於記憶體條件約束之模型的客戶建議的解決方案。

DeepSpeed程式庫是由 Microsoft 開發的開放原始碼程式庫,可在 Databricks Runtime 14.0 ML 或更新版本中取得。 它提供優化的記憶體使用量、降低通訊額外負荷,以及進階管線平行處理原則,以允許調整模型和訓練程式,否則無法在標準硬體上附加。

以下是 DeepSpeed 散發者的範例案例:

  • 低 GPU 記憶體。
  • 大型模型定型。
  • 大型輸入資料,例如批次推斷期間。

使用 DeepSpeed 進行分散式訓練的範例筆記本

下列筆記本範例示範如何使用 DeepSpeed 散發者執行分散式定型。

微調 Llama 2 7B 聊天與 DeepspeedTorchDistributor 筆記本

取得筆記本