分散データ並列 (DDP) トレーニング

Important

この機能はベータ版です。ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。

このページには、AI ランタイムで分散データ並列 (DDP) トレーニングを使用するためのノートブックの例が含まれています。 DDP は分散トレーニングの最も一般的な並列処理手法であり、各 GPU で完全なモデルがレプリケートされ、データバッチが GPU 間で分割されます。

DDP を使用する場合

DDP は次の場合に使用します。

モデルは単一の GPU のメモリに完全に収まる
データスループットを向上させてトレーニングをスケーリングする
ほとんどのフレームワークで自動サポートを使用する最も単純な分散トレーニングアプローチが必要です

1 つの GPU メモリに収まらない大規模なモデルの場合は、代わりに FSDP または DeepSpeed を検討してください。

例示

チュートリアル	説明
PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラルネットワークをトレーニングする	このノートブックでは、Azure Databricks 上の PyTorch の DDP モジュールとサーバーレス GPU リソースを使用した単純な多層パーセプトロン (MLP) ニューラルネットワークの分散トレーニングを示します。
TRL と DDP を使用した 8xH100 での OpenAI GPT-OSS 20B モデルのトレーニング	このノートブックでは、サーバーレス GPU Python API を使用して、トランスフォーマー強化学習 (TRL ) ライブラリを使用して、Hugging Face から GPT-OSS 20B モデルで監視微調整 (SFT) を実行する方法を示します。この例では、ノード上の 8 つの H100 GPU すべてに DDP を利用して、グローバルバッチサイズをスケーリングします。
Llama 3.2 3B の分散微調整に Unsloth を使用	このノートブックでは、サーバーレス GPU Python API を使用して、8 つの A10 GPU で Unsloth ライブラリを使用して Llama 3.2 3B モデルを微調整する方法を示します。 Unsloth はメモリ効率の高いトレーニング最適化を提供し、Hugging Face Accelerate を通じて DDP を実行します。
Olmo3 7B の分散微調整を Axolotl を使用して実行する	このノートブックでは、サーバーレス GPU Python API を使用して、16 個の H100 GPU にわたって Axolotl ライブラリを使用して Olmo3 7B モデルを微調整する方法を示します。 Axolotl は、最新の LLM のトレーニング後の処理と微調整を効率化するために設計されています。
PyTorch Lightning を使用して 2 タワーレコメンダーシステムをトレーニングする	このノートブックでは、サーバーレス GPU で PyTorch Lightning を使用して 2 タワーレコメンデーションモデルをトレーニングする方法を示します。 PyTorch Lightning には、マルチ GPU トレーニング用の DDP 構成を自動的に処理する高度なインターフェイスが用意されています。この例には、モザイクストリーミング (MDS) 形式を使用したデータ準備と、A10 または H100 GPU 全体の分散トレーニングが含まれます。次のような完全なノートブックについては、ディープラーニングの推奨事項の例ページを参照してください。データ準備と MDS 形式の変換 PyTorch Lightning を使用した二塔推薦システムトレーニング

PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラルネットワークをトレーニングする

次のノートブックは、Azure Databricks 上の PyTorch の DDP モジュールとサーバーレス GPU リソースを使用した単純な多層パーセプトロン (MLP) ニューラルネットワークの分散トレーニングを示しています。

PyTorch DDP

ノートブックを入手

PyTorch Lightning を使用して 2 タワーレコメンダーシステムをトレーニングする

このノートブックでは、サーバーレス GPU コンピューティングで PyTorch Lightning を使用して 2 タワーレコメンデーションモデルをトレーニングする方法を示します。 PyTorch Lightning には、マルチ GPU トレーニング用の DDP 構成を自動的に処理する高度なインターフェイスが用意されています。この例には、モザイクストリーミング (MDS) 形式を使用したデータ準備と、A10 または H100 GPU 全体の分散トレーニングが含まれます。

次のような完全なノートブックについては、ディープラーニングの推奨事項の例ページを参照してください。

データ準備と MDS 形式の変換
PyTorch Lightning を使用した二塔推薦システムトレーニング

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-21

次の方法で共有

分散データ並列 (DDP) トレーニング

DDP を使用する場合

例示

PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラル ネットワークをトレーニングする

PyTorch DDP

PyTorch Lightning を使用して 2 タワー レコメンダー システムをトレーニングする

フィードバック

その他のリソース

PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラルネットワークをトレーニングする

PyTorch Lightning を使用して 2 タワーレコメンダーシステムをトレーニングする