マルチ GPU 分散トレーニング

Important

この機能はベータ版です。ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。

このページには、AI ランタイムを使用したマルチ GPU 分散トレーニングのノートブックの例が含まれています。これらの例では、パフォーマンスを向上させるために、複数の GPU とノード間でトレーニングをスケーリングする方法を示します。

注

H100 GPU では、マルチ GPU 分散トレーニングがサポートされています。

並列処理の手法を選択する

複数の GPU でモデルトレーニングをスケーリングする場合、適切な並列処理手法の選択は、モデルのサイズ、使用可能な GPU メモリ、およびパフォーマンスの要件によって異なります。

手法	いつ使用するか
DDP (分散データ並列)	完全なモデルは単一の GPU メモリに適合します。データスループットをスケーリングする必要がある
FSDP (完全にシャード化されたデータ並列)	1 つの GPU メモリに収まらない非常に大規模なモデル
DeepSpeed ZeRO	高度なメモリ最適化ニーズを備えた大規模なモデル

各手法の詳細については、 DDP、 FSDP、 DeepSpeed を参照してください。

次の表は、使用しているフレームワーク/ライブラリと適用される並列処理手法によってノートブックの例を整理しています。 1 つのセルに複数のノートブックが表示される場合があります。

フレームワーク/ライブラリ	DDP の例	FSDP の例	DeepSpeed の例
PyTorch (ネイティブ)	単純な MLP ニューラルネットワーク RetinaNet の画像検出	10Mパラメータトランス	—
Huggingface TRL	Gpt OSS 20B の微調整	Gpt OSS 120B の微調整	Llama 3.2 1B を微調整する
Unsloth	Llama 3.2 3B を微調整する	—	—
Axolotl	Olmo3 7B の微調整	—	—
モザイク LLM ファウンドリー	Llama 3.2 8B を微調整する	—	—
ライトニング	ツータワーレコメンダーシステム	—	—

分散トレーニング用のサーバーレス GPU Python ライブラリの使用を開始するには、次のチュートリアルを使用します。

チュートリアル	説明
H100 GPU を使用した AI ランタイム	Databricks AI Runtime と H100 アクセラレータを使用して、serverless_gpu Python ライブラリを使用して分散 GPU ワークロードを実行する方法について説明します。

このページはお役に立ちましたか?