次の方法で共有


分散データ並列 (DDP) トレーニング

Important

この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。

このページには、AI ランタイムで 分散データ並列 (DDP) トレーニングを使用するためのノートブックの例が含まれています。 DDP は分散トレーニングの最も一般的な並列処理手法であり、各 GPU で完全なモデルがレプリケートされ、データ バッチが GPU 間で分割されます。

DDP を使用する場合

DDP は次の場合に使用します。

  • モデルは単一の GPU のメモリに完全に収まる
  • データ スループットを向上させてトレーニングをスケーリングする
  • ほとんどのフレームワークで自動サポートを使用する最も単純な分散トレーニング アプローチが必要です

1 つの GPU メモリに収まらない大規模なモデルの場合は、代わりに FSDP または DeepSpeed を検討してください。

例示

チュートリアル 説明
PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラル ネットワークをトレーニングする このノートブックでは、Azure Databricks 上の PyTorch の DDP モジュールとサーバーレス GPU リソースを使用した単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示します。
TRL と DDP を使用した 8xH100 での OpenAI GPT-OSS 20B モデルのトレーニング このノートブックでは、 サーバーレス GPU Python API を使用して、 トランスフォーマー強化学習 (TRL ) ライブラリを使用して、Hugging Face から GPT-OSS 20B モデルで監視微調整 (SFT) を実行する方法を示します。 この例では、ノード上の 8 つの H100 GPU すべてに DDP を利用して、グローバル バッチ サイズをスケーリングします。
Llama 3.2 3B の分散微調整に Unsloth を使用 このノートブックでは、 サーバーレス GPU Python API を使用して、8 つの A10 GPU で Unsloth ライブラリを使用して Llama 3.2 3B モデルを微調整する方法を示します。 Unsloth はメモリ効率の高いトレーニング最適化を提供し、Hugging Face Accelerate を通じて DDP を実行します。
Olmo3 7B の分散微調整を Axolotl を使用して実行する このノートブックでは、 サーバーレス GPU Python API を使用して、16 個の H100 GPU にわたって Axolotl ライブラリを使用して Olmo3 7B モデルを微調整する方法を示します。 Axolotl は、最新の LLM のトレーニング後の処理と微調整を効率化するために設計されています。
PyTorch Lightning を使用して 2 タワー レコメンダー システムをトレーニングする このノートブックでは、サーバーレス GPU で PyTorch Lightning を使用して 2 タワーレコメンデーション モデルをトレーニングする方法を示します。 PyTorch Lightning には、マルチ GPU トレーニング用の DDP 構成を自動的に処理する高度なインターフェイスが用意されています。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータ準備と、A10 または H100 GPU 全体の分散トレーニングが含まれます。
次のような完全なノートブックについては、 ディープ ラーニングの推奨事項の例 ページを参照してください。
  • データ準備と MDS 形式の変換
  • PyTorch Lightning を使用した二塔推薦システムトレーニング

PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラル ネットワークをトレーニングする

次のノートブックは、Azure Databricks 上の PyTorch の DDP モジュールとサーバーレス GPU リソースを使用した単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。

PyTorch DDP

ノートブックを入手

PyTorch Lightning を使用して 2 タワー レコメンダー システムをトレーニングする

このノートブックでは、サーバーレス GPU コンピューティングで PyTorch Lightning を使用して 2 タワーレコメンデーション モデルをトレーニングする方法を示します。 PyTorch Lightning には、マルチ GPU トレーニング用の DDP 構成を自動的に処理する高度なインターフェイスが用意されています。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータ準備と、A10 または H100 GPU 全体の分散トレーニングが含まれます。

次のような完全なノートブックについては、 ディープ ラーニングの推奨事項の例 ページを参照してください。

  • データ準備と MDS 形式の変換
  • PyTorch Lightning を使用した二塔推薦システムトレーニング