次の方法で共有


マルチ GPU 分散トレーニング

Important

この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。

このページには、AI ランタイムを使用したマルチ GPU 分散トレーニングのノートブックの例が含まれています。 これらの例では、パフォーマンスを向上させるために、複数の GPU とノード間でトレーニングをスケーリングする方法を示します。

H100 GPU では、マルチ GPU 分散トレーニングがサポートされています。

並列処理の手法を選択する

複数の GPU でモデル トレーニングをスケーリングする場合、適切な並列処理手法の選択は、モデルのサイズ、使用可能な GPU メモリ、およびパフォーマンスの要件によって異なります。

手法 いつ使用するか
DDP (分散データ並列) 完全なモデルは単一の GPU メモリに適合します。データ スループットをスケーリングする必要がある
FSDP (完全にシャード化されたデータ並列) 1 つの GPU メモリに収まらない非常に大規模なモデル
DeepSpeed ZeRO 高度なメモリ最適化ニーズを備えた大規模なモデル

各手法の詳細については、 DDPFSDPDeepSpeed を参照してください。

手法とフレームワーク別のノートブックの例

次の表は、使用しているフレームワーク/ライブラリと適用される並列処理手法によってノートブックの例を整理しています。 1 つのセルに複数のノートブックが表示される場合があります。

フレームワーク/ライブラリ DDP の例 FSDP の例 DeepSpeed の例
PyTorch (ネイティブ) 単純な MLP ニューラル ネットワーク
RetinaNet の画像検出
10Mパラメータトランス
Huggingface TRL Gpt OSS 20B の微調整 Gpt OSS 120B の微調整 Llama 3.2 1B を微調整する
Unsloth Llama 3.2 3B を微調整する
Axolotl Olmo3 7B の微調整
モザイク LLM ファウンドリー Llama 3.2 8B を微調整する
ライトニング ツータワーレコメンダーシステム

概要

分散トレーニング用のサーバーレス GPU Python ライブラリの使用を開始するには、次のチュートリアルを使用します。

チュートリアル 説明
H100 GPU を使用した AI ランタイム Databricks AI Runtime と H100 アクセラレータを使用して、serverless_gpu Python ライブラリを使用して分散 GPU ワークロードを実行する方法について説明します。