Important
この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。
このページには、AI ランタイムで 分散データ並列 (DDP) トレーニングを使用するためのノートブックの例が含まれています。 DDP は分散トレーニングの最も一般的な並列処理手法であり、各 GPU で完全なモデルがレプリケートされ、データ バッチが GPU 間で分割されます。
DDP を使用する場合
DDP は次の場合に使用します。
- モデルは単一の GPU のメモリに完全に収まる
- データ スループットを向上させてトレーニングをスケーリングする
- ほとんどのフレームワークで自動サポートを使用する最も単純な分散トレーニング アプローチが必要です
1 つの GPU メモリに収まらない大規模なモデルの場合は、代わりに FSDP または DeepSpeed を検討してください。
例示
| チュートリアル | 説明 |
|---|---|
| PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラル ネットワークをトレーニングする | このノートブックでは、Azure Databricks 上の PyTorch の DDP モジュールとサーバーレス GPU リソースを使用した単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示します。 |
| TRL と DDP を使用した 8xH100 での OpenAI GPT-OSS 20B モデルのトレーニング | このノートブックでは、 サーバーレス GPU Python API を使用して、 トランスフォーマー強化学習 (TRL ) ライブラリを使用して、Hugging Face から GPT-OSS 20B モデルで監視微調整 (SFT) を実行する方法を示します。 この例では、ノード上の 8 つの H100 GPU すべてに DDP を利用して、グローバル バッチ サイズをスケーリングします。 |
| Llama 3.2 3B の分散微調整に Unsloth を使用 | このノートブックでは、 サーバーレス GPU Python API を使用して、8 つの A10 GPU で Unsloth ライブラリを使用して Llama 3.2 3B モデルを微調整する方法を示します。 Unsloth はメモリ効率の高いトレーニング最適化を提供し、Hugging Face Accelerate を通じて DDP を実行します。 |
| Olmo3 7B の分散微調整を Axolotl を使用して実行する | このノートブックでは、 サーバーレス GPU Python API を使用して、16 個の H100 GPU にわたって Axolotl ライブラリを使用して Olmo3 7B モデルを微調整する方法を示します。 Axolotl は、最新の LLM のトレーニング後の処理と微調整を効率化するために設計されています。 |
| PyTorch Lightning を使用して 2 タワー レコメンダー システムをトレーニングする | このノートブックでは、サーバーレス GPU で PyTorch Lightning を使用して 2 タワーレコメンデーション モデルをトレーニングする方法を示します。 PyTorch Lightning には、マルチ GPU トレーニング用の DDP 構成を自動的に処理する高度なインターフェイスが用意されています。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータ準備と、A10 または H100 GPU 全体の分散トレーニングが含まれます。 次のような完全なノートブックについては、 ディープ ラーニングの推奨事項の例 ページを参照してください。
|
PyTorch DDP を使用して単純な多層パーセプトロン (MLP) ニューラル ネットワークをトレーニングする
次のノートブックは、Azure Databricks 上の PyTorch の DDP モジュールとサーバーレス GPU リソースを使用した単純な多層パーセプトロン (MLP) ニューラル ネットワークの分散トレーニングを示しています。
PyTorch DDP
PyTorch Lightning を使用して 2 タワー レコメンダー システムをトレーニングする
このノートブックでは、サーバーレス GPU コンピューティングで PyTorch Lightning を使用して 2 タワーレコメンデーション モデルをトレーニングする方法を示します。 PyTorch Lightning には、マルチ GPU トレーニング用の DDP 構成を自動的に処理する高度なインターフェイスが用意されています。 この例には、モザイク ストリーミング (MDS) 形式を使用したデータ準備と、A10 または H100 GPU 全体の分散トレーニングが含まれます。
次のような完全なノートブックについては、 ディープ ラーニングの推奨事項の例 ページを参照してください。
- データ準備と MDS 形式の変換
- PyTorch Lightning を使用した二塔推薦システムトレーニング