Important
この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。
このページには、AI ランタイムを使用したマルチ GPU 分散トレーニングのノートブックの例が含まれています。 これらの例では、パフォーマンスを向上させるために、複数の GPU とノード間でトレーニングをスケーリングする方法を示します。
注
H100 GPU では、マルチ GPU 分散トレーニングがサポートされています。
並列処理の手法を選択する
複数の GPU でモデル トレーニングをスケーリングする場合、適切な並列処理手法の選択は、モデルのサイズ、使用可能な GPU メモリ、およびパフォーマンスの要件によって異なります。
| 手法 | いつ使用するか |
|---|---|
| DDP (分散データ並列) | 完全なモデルは単一の GPU メモリに適合します。データ スループットをスケーリングする必要がある |
| FSDP (完全にシャード化されたデータ並列) | 1 つの GPU メモリに収まらない非常に大規模なモデル |
| DeepSpeed ZeRO | 高度なメモリ最適化ニーズを備えた大規模なモデル |
各手法の詳細については、 DDP、 FSDP、 DeepSpeed を参照してください。
手法とフレームワーク別のノートブックの例
次の表は、使用しているフレームワーク/ライブラリと適用される並列処理手法によってノートブックの例を整理しています。 1 つのセルに複数のノートブックが表示される場合があります。
| フレームワーク/ライブラリ | DDP の例 | FSDP の例 | DeepSpeed の例 |
|---|---|---|---|
| PyTorch (ネイティブ) |
単純な MLP ニューラル ネットワーク RetinaNet の画像検出 |
10Mパラメータトランス | — |
| Huggingface TRL | Gpt OSS 20B の微調整 | Gpt OSS 120B の微調整 | Llama 3.2 1B を微調整する |
| Unsloth | Llama 3.2 3B を微調整する | — | — |
| Axolotl | Olmo3 7B の微調整 | — | — |
| モザイク LLM ファウンドリー | Llama 3.2 8B を微調整する | — | — |
| ライトニング | ツータワーレコメンダーシステム | — | — |
概要
分散トレーニング用のサーバーレス GPU Python ライブラリの使用を開始するには、次のチュートリアルを使用します。
| チュートリアル | 説明 |
|---|---|
| H100 GPU を使用した AI ランタイム | Databricks AI Runtime と H100 アクセラレータを使用して、serverless_gpu Python ライブラリを使用して分散 GPU ワークロードを実行する方法について説明します。 |