AI ランタイムのユーザーガイド

Important

単一ノードタスクの AI ランタイムはパブリックプレビュー段階です。マルチ GPU ワークロード用の分散トレーニング API はベータ版のままです。

このページには、移行情報、サンプルノートブックへのリンク、トラブルシューティング情報が含まれています。

クラシック GPU ワークロードをサーバーレスに移行する

既存のディープラーニングワークロードを従来の Databricks クラスター (Databricks Runtime ML を使用) からサーバーレス (AI ランタイムを使用) に移動する場合は、次の手順に従います。

クラスターに依存するコードを置き換えます。 Spark ベースの分散トレーニングへの参照 (たとえば、TorchDistributor) を削除し、@distributedから serverless_gpu デコレーターに置き換えます。
データの読み込みを更新します。 直接 DBFS パスを Unity カタログボリュームパス (/Volumes/...) に置き換えます。ローカルの Spark DataFrame 操作を Spark Connect に置き換えます。
依存関係を再インストールします。 Databricks Runtime ML の事前インストール済みライブラリに依存しないでください。必要なすべてのパッケージに明示的な %pip install コマンドを追加します。
チェックポイントパスを更新します。 チェックポイントを DBFS またはローカルストレージから Unity カタログボリューム (/Volumes/<catalog>/<schema>/<volume>/...) に移動します。
MLflow 構成を更新します。 実験名で絶対パスを使用し、実行名を構成して、簡単に再起動できるようにします。
最初に対話形式でテストします。 ジョブとしてスケジュールする前に、対話型ノートブックでワークロードを検証します。

使用状況とコストを追跡する

課金対象の使用状況システムテーブル (system.billing.usage) を照会することで、AI ランタイム GPU の支出を監視できます。次のクエリは、サーバーレス GPU ワークロードの合計使用量を返します。

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

課金対象の使用状況テーブルスキーマの詳細については、「課金対象の使用状況システムテーブルリファレンス」を参照してください。

モデルトレーニング SKU の GPU 時間あたりの AI ランタイム料金は、次の価格で行われます。

H100 オンデマンド: $7.00/GPU 時間 (米国東部)
A10 オンデマンド: $4.90/GPU 時間 (米国東部)

サンプルのノート

作業の開始に役立つノートブックの例には、次のカテゴリがあります。

カテゴリ	説明
大規模言語モデル (LLM)	パラメーター効率の高いメソッドを含む大規模な言語モデルの微調整 (LoRA、QLoRA)
Computer Vision	物体検出、画像分類、およびその他の CV タスク
ディープラーニングレコメンダーシステム	2 タワーモデルのような最新のディープラーニングアプローチを使用したレコメンデーションシステムの構築
クラシック ML	XGBoost モデルのトレーニングや時系列予測を含む従来の ML タスク
マルチ GPU 分散トレーニング	サーバーレス GPU API を使用した複数の GPU 間でのトレーニングのスケーリング

完全な一覧については、 AI ランタイムのノートブックの例を参照してください。

Troubleshooting

Genie Code は、ライブラリのインストールエラーの修正プログラムの診断と提案に役立ちます。 Genie Code を使用したコンピューティング環境エラーのデバッグを参照してください。

ValueError: numpy.dtype のサイズが変更されました。バイナリ非互換性を示している可能性があります。 C ヘッダーから 96 が予想され、PyObject から 88 が取得されました

このエラーは通常、依存パッケージのコンパイル中に使用される NumPy バージョンと、ランタイム環境に現在インストールされている NumPy バージョンが一致しない場合に発生します。多くの場合、この非互換性は NumPy の C API の変更によって発生し、NumPy 1.x から 2.x に特に顕著です。このエラーは、ノートブックにインストールされている Python パッケージによって NumPy のバージョンが変更された可能性があることを示します。

推奨される解決策:

ランタイムで NumPy のバージョンを確認し、パッケージと互換性があることを確認します。プレインストールされている Python ライブラリについては、環境 4 と環境 3 のサーバーレス GPU コンピューティングのリリースノートを参照してください。別のバージョンの NumPy に依存している場合は、その依存関係をコンピューティング環境に追加します。

PyTorch は、torch をインストールするときに libcudnn を見つけることができません

別のバージョンの torchをインストールすると、 ImportError: libcudnn.so.9: cannot open shared object file: No such file or directoryというエラーが表示されることがあります。これは、Torch がローカルパス内の cuDNN ライブラリのみを検索するためです。

推奨される解決策:

--force-reinstallをインストールするときにtorchを追加して、依存関係を再インストールします。

%pip install torch --force-reinstall

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-21