AI ランタイム

Important

単一ノードタスクの AI ランタイムはパブリックプレビュー段階です。マルチ GPU ワークロード用の分散トレーニング API はベータ版のままです。

AI ランタイムの概要

AI ランタイムは、ディープラーニングワークロードを対象とした Databricks のコンピューティングオファリングであり、Databricks サーバーレスの GPU サポートを提供します。 AI ランタイムを使用して、お気に入りのフレームワークを使用してカスタムモデルをトレーニングおよび微調整し、最先端の効率、パフォーマンス、品質を得ることができます。サーバーレスコンピューティングが Databricks アーキテクチャにどのように適合するかの概要については、「サーバーレスワークスペースアーキテクチャ」を参照してください。

主要な機能

フルマネージド GPU インフラストラクチャ - サーバーレスで柔軟な GPU へのアクセス。管理するクラスター構成、ドライバーの選択、自動スケールポリシーはありません。
ディープラーニング専用のランタイム - 依存関係に対する柔軟性を最大限に高めるために最小限の既定の基本環境を選択するか、一般的な ML フレームワークで事前に読み込まれたフル機能の AI 環境を選択します。
ノートブック、ジョブ、Unity カタログ、MLflow にネイティブに統合され、シームレスな開発、データアクセス、実験追跡を実現します。

ハードウェアオプション

アクセラレータ	最適な対象者	マルチ GPU
A10	小規模から中規模の ML と、従来の ML モデルや小さな言語モデルの微調整などのディープラーニングタスク	いいえ
H100	大規模なモデルのトレーニングや微調整、高度なディープラーニングタスクの実行など、大規模な AI ワークロード	はい (8 GPU)

推奨されるユースケース

Databricks では、ディープラーニング、大規模なクラシックワークロード、または GPU を含むカスタムモデルトレーニングのユースケースに対して AI ランタイムが推奨されます。

例えば次が挙げられます。

LLM の微調整 (LoRA、QLoRA、完全な微調整)
コンピュータービジョン (物体検出、画像分類)
ディープラーニングベースのレコメンダーシステム
強化学習
ディープラーニングベースの時系列予測

必要条件

次のいずれかの Azure でサポートされているリージョン内のワークスペース。
- centralus
- eastus
- eastus2
- northcentralus
- westcentralus
- westus
- westus3

制限事項

AI ランタイムでは、A10 アクセラレータと H100 アクセラレータのみがサポートされます。
AI ランタイムは、コンプライアンスセキュリティプロファイルワークスペース (HIPAA や PCI など) ではサポートされていません。規制対象データの処理はサポートされていません。
[ 環境 ] パネルを使用した依存関係の追加は、AI ランタイムのスケジュールされたジョブではサポートされていません。代わりに、ノートブックで %pip install を使用してプログラムで依存関係をインストールします。
AI ランタイムでスケジュールされたジョブの場合、ノートブックに関連付けられている互換性のないパッケージバージョンの自動回復動作はサポートされていません。
ワークロードの最大実行時間は 7 日間です。この制限を超えるモデルトレーニングジョブの場合は、チェックポイント処理を実装し、最大ランタイムに達したらジョブを再起動します。
AI ランタイムは、GPU リソースへのオンデマンドアクセスを提供します。これにより、GPU への簡単で柔軟なアクセスが可能になりますが、リージョンで容量が制限されたり使用できなくなったりする場合があります。
AI ランタイムは、需要が高い時間帯にリージョン間 GPU を利用します。このような使用に関連するエグレスコストが発生する可能性があります。

AI ランタイムに接続する

ノートブックから対話形式で AI ランタイムに接続したり、ノートブックを定期的なジョブとしてスケジュールしたり、Jobs API と Databricks アセットバンドルを使用してプログラムでジョブを作成したりできます。詳細な手順については、「 AI ランタイムへの接続」を参照してください。

環境を設定する

AI ランタイムには、最小限の既定の基本環境と、PyTorch や Transformers などの一般的な ML フレームワークが事前に読み込まれているフル機能の Databricks AI 環境という 2 つのマネージド Python 環境が用意されています。環境の選択、キャッシュ動作、カスタムモジュールのインポート、既知の制限事項の詳細については、「環境の設定」を参照してください。

データの読み取り

スムーズなエクスペリエンスを実現するには、AI ランタイムでのデータアクセスのしくみを理解することが不可欠です。詳細については、「 AI ランタイムにデータを読み込む」を参照してください。

分散トレーニング

Important

この機能はベータ版です。ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。

AI ランタイムは、ノートブックが接続されている単一ノード上の複数の GPU 間で分散トレーニングをサポートします。 @distributed Python API (ベータ) の serverless_gpu デコレーターを使用すると、PyTorch DDP、FSDP、または DeepSpeed を使用して、最小限の構成でマルチ GPU ワークロードを起動できます。詳細については、マルチ GPU ワークロードに関するページを参照してください。

実験の追跡と可観測性

MLflow の統合、ログの表示、モデルのチェックポイント管理については、「実験の追跡と監視」を参照してください。

ディープラーニングのための Genie Code

Genie Code では、AI ランタイムでのディープラーニングワークロードがサポートされています。これは、トレーニングコードの生成、ライブラリのインストールエラーの解決、最適化の提案、一般的な問題のデバッグに役立ちます。データサイエンスに Genie Code を使用するを参照してください。

Guides

クラシックワークロードからの移行、ノートブックの例、トラブルシューティングについては、 AI ランタイムのユーザーガイドを参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-21