Important
単一ノード タスクの AI ランタイムは パブリック プレビュー段階です。 マルチ GPU ワークロード用の分散トレーニング API は ベータ版のままです。
このページには、移行情報、サンプル ノートブックへのリンク、トラブルシューティング情報が含まれています。
クラシック GPU ワークロードをサーバーレスに移行する
既存のディープ ラーニング ワークロードを従来の Databricks クラスター (Databricks Runtime ML を使用) からサーバーレス (AI ランタイムを使用) に移動する場合は、次の手順に従います。
- クラスターに依存するコードを置き換えます。 Spark ベースの分散トレーニングへの参照 (たとえば、
TorchDistributor) を削除し、@distributedからserverless_gpuデコレーターに置き換えます。 - データの読み込みを更新します。 直接 DBFS パスを Unity カタログ ボリューム パス (
/Volumes/...) に置き換えます。 ローカルの Spark DataFrame 操作を Spark Connect に置き換えます。 - 依存関係を再インストールします。 Databricks Runtime ML の事前インストール済みライブラリに依存しないでください。 必要なすべてのパッケージに明示的な
%pip installコマンドを追加します。 - チェックポイント パスを更新します。 チェックポイントを DBFS またはローカル ストレージから Unity カタログ ボリューム (
/Volumes/<catalog>/<schema>/<volume>/...) に移動します。 - MLflow 構成を更新します。 実験名で絶対パスを使用し、実行名を構成して、簡単に再起動できるようにします。
- 最初に対話形式でテストします。 ジョブとしてスケジュールする前に、対話型ノートブックでワークロードを検証します。
使用状況とコストを追跡する
課金対象の使用状況システム テーブル (system.billing.usage) を照会することで、AI ランタイム GPU の支出を監視できます。 次のクエリは、サーバーレス GPU ワークロードの合計使用量を返します。
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
課金対象の使用状況テーブル スキーマの詳細については、「 課金対象の使用状況システム テーブルリファレンス」を参照してください。
モデル トレーニング SKU の GPU 時間あたりの AI ランタイム料金は、次の価格で行われます。
- H100 オンデマンド: $7.00/GPU 時間 (米国東部)
- A10 オンデマンド: $4.90/GPU 時間 (米国東部)
サンプルのノート
作業の開始に役立つノートブックの例には、次のカテゴリがあります。
| カテゴリ | 説明 |
|---|---|
| 大規模言語モデル (LLM) | パラメーター効率の高いメソッドを含む大規模な言語モデルの微調整 (LoRA、QLoRA) |
| Computer Vision | 物体検出、画像分類、およびその他の CV タスク |
| ディープ ラーニング レコメンダー システム | 2 タワー モデルのような最新のディープ ラーニング アプローチを使用したレコメンデーション システムの構築 |
| クラシック ML | XGBoost モデルのトレーニングや時系列予測を含む従来の ML タスク |
| マルチ GPU 分散トレーニング | サーバーレス GPU API を使用した複数の GPU 間でのトレーニングのスケーリング |
完全な一覧については、 AI ランタイムのノートブックの例を参照してください。
Troubleshooting
Genie Code は、ライブラリのインストール エラーの修正プログラムの診断と提案に役立ちます。 Genie Code を使用したコンピューティング環境エラーのデバッグを参照してください。
ValueError: numpy.dtype のサイズが変更されました。バイナリ非互換性を示している可能性があります。 C ヘッダーから 96 が予想され、PyObject から 88 が取得されました
このエラーは通常、依存パッケージのコンパイル中に使用される NumPy バージョンと、ランタイム環境に現在インストールされている NumPy バージョンが一致しない場合に発生します。 多くの場合、この非互換性は NumPy の C API の変更によって発生し、NumPy 1.x から 2.x に特に顕著です。 このエラーは、ノートブックにインストールされている Python パッケージによって NumPy のバージョンが変更された可能性があることを示します。
推奨される解決策:
ランタイムで NumPy のバージョンを確認し、パッケージと互換性があることを確認します。 プレインストールされている Python ライブラリについては、 環境 4 と 環境 3 のサーバーレス GPU コンピューティングのリリース ノートを参照してください。 別のバージョンの NumPy に依存している場合は、その依存関係をコンピューティング環境に追加します。
PyTorch は、torch をインストールするときに libcudnn を見つけることができません
別のバージョンの torchをインストールすると、 ImportError: libcudnn.so.9: cannot open shared object file: No such file or directoryというエラーが表示されることがあります。 これは、Torch がローカル パス内の cuDNN ライブラリのみを検索するためです。
推奨される解決策:
--force-reinstallをインストールするときにtorchを追加して、依存関係を再インストールします。
%pip install torch --force-reinstall