Important
単一ノード タスクの AI ランタイムは パブリック プレビュー段階です。 マルチ GPU ワークロード用の分散トレーニング API は ベータ版のままです。
AI ランタイムの概要
AI ランタイムは、 ディープ ラーニング ワークロードを対象とした Databricks のコンピューティング オファリングであり、Databricks サーバーレスの GPU サポートを提供します。 AI ランタイムを使用して、お気に入りのフレームワークを使用してカスタム モデルをトレーニングおよび微調整し、最先端の効率、パフォーマンス、品質を得ることができます。 サーバーレス コンピューティングが Databricks アーキテクチャにどのように適合するかの概要については、「サーバーレス ワークスペースアーキテクチャ」を参照してください。
主要な機能
- フル マネージド GPU インフラストラクチャ - サーバーレスで柔軟な GPU へのアクセス。管理するクラスター構成、ドライバーの選択、自動スケール ポリシーはありません。
- ディープ ラーニング専用のランタイム - 依存関係に対する柔軟性を最大限に高めるために最小限の既定の基本環境を選択するか、一般的な ML フレームワークで事前に読み込まれたフル機能の AI 環境を選択します。
- ノートブック、ジョブ、Unity カタログ、MLflow にネイティブに統合され、シームレスな開発、データ アクセス、実験追跡を実現します。
ハードウェア オプション
| アクセラレータ | 最適な対象者 | マルチ GPU |
|---|---|---|
| A10 | 小規模から中規模の ML と、従来の ML モデルや小さな言語モデルの微調整などのディープ ラーニング タスク | いいえ |
| H100 | 大規模なモデルのトレーニングや微調整、高度なディープ ラーニング タスクの実行など、大規模な AI ワークロード | はい (8 GPU) |
推奨されるユース ケース
Databricks では、ディープ ラーニング、大規模なクラシック ワークロード、または GPU を含むカスタム モデル トレーニングのユース ケースに対して AI ランタイムが推奨されます。
例えば次が挙げられます。
- LLM の微調整 (LoRA、QLoRA、完全な微調整)
- コンピューター ビジョン (物体検出、画像分類)
- ディープ ラーニング ベースのレコメンダー システム
- 強化学習
- ディープ ラーニングベースの時系列予測
必要条件
- 次のいずれかの Azure でサポートされているリージョン内のワークスペース。
centraluseastuseastus2northcentraluswestcentraluswestuswestus3
制限事項
- AI ランタイムでは、A10 アクセラレータと H100 アクセラレータのみがサポートされます。
- AI ランタイムは、コンプライアンス セキュリティ プロファイル ワークスペース (HIPAA や PCI など) ではサポートされていません。 規制対象データの処理はサポートされていません。
- [ 環境 ] パネルを使用した依存関係の追加は、AI ランタイムのスケジュールされたジョブではサポートされていません。 代わりに、ノートブックで
%pip installを使用してプログラムで依存関係をインストールします。 - AI ランタイムでスケジュールされたジョブの場合、ノートブックに関連付けられている互換性のないパッケージ バージョンの自動回復動作はサポートされていません。
- ワークロードの最大実行時間は 7 日間です。 この制限を超えるモデル トレーニング ジョブの場合は、チェックポイント処理を実装し、最大ランタイムに達したらジョブを再起動します。
- AI ランタイムは、GPU リソースへのオンデマンド アクセスを提供します。 これにより、GPU への簡単で柔軟なアクセスが可能になりますが、リージョンで容量が制限されたり使用できなくなったりする場合があります。
- AI ランタイムは、需要が高い時間帯にリージョン間 GPU を利用します。 このような使用に関連するエグレス コストが発生する可能性があります。
AI ランタイムに接続する
ノートブックから対話形式で AI ランタイムに接続したり、ノートブックを定期的なジョブとしてスケジュールしたり、Jobs API と Databricks アセット バンドルを使用してプログラムでジョブを作成したりできます。 詳細な手順については、「 AI ランタイムへの接続」を参照してください。
環境を設定する
AI ランタイムには、最小限の既定の基本環境と、PyTorch や Transformers などの一般的な ML フレームワークが事前に読み込まれているフル機能の Databricks AI 環境という 2 つのマネージド Python 環境が用意されています。 環境の選択、キャッシュ動作、カスタム モジュールのインポート、既知の制限事項の詳細については、「 環境の設定」を参照してください。
データの読み取り
スムーズなエクスペリエンスを実現するには、AI ランタイムでのデータ アクセスのしくみを理解することが不可欠です。 詳細については、「 AI ランタイムにデータを読み込む」を参照してください。
分散トレーニング
Important
この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。
AI ランタイムは、ノートブックが接続されている単一ノード上の複数の GPU 間で分散トレーニングをサポートします。
@distributed Python API (ベータ) の serverless_gpu デコレーターを使用すると、PyTorch DDP、FSDP、または DeepSpeed を使用して、最小限の構成でマルチ GPU ワークロードを起動できます。 詳細については、 マルチ GPU ワークロードに関するページを参照してください。
実験の追跡と可観測性
MLflow の統合、ログの表示、モデルのチェックポイント管理については、「 実験の追跡と監視」を参照してください。
ディープ ラーニングのための Genie Code
Genie Code では、AI ランタイムでのディープ ラーニング ワークロードがサポートされています。 これは、トレーニング コードの生成、ライブラリのインストール エラーの解決、最適化の提案、一般的な問題のデバッグに役立ちます。 データ サイエンスに Genie Code を使用するを参照してください。
Guides
クラシック ワークロードからの移行、ノートブックの例、トラブルシューティングについては、 AI ランタイムのユーザー ガイドを参照してください。