次の方法で共有


AI ランタイムのユーザー ガイド

Important

単一ノード タスクの AI ランタイムは パブリック プレビュー段階です。 マルチ GPU ワークロード用の分散トレーニング API は ベータ版のままです。

このページには、移行情報、サンプル ノートブックへのリンク、トラブルシューティング情報が含まれています。

クラシック GPU ワークロードをサーバーレスに移行する

既存のディープ ラーニング ワークロードを従来の Databricks クラスター (Databricks Runtime ML を使用) からサーバーレス (AI ランタイムを使用) に移動する場合は、次の手順に従います。

  1. クラスターに依存するコードを置き換えます。 Spark ベースの分散トレーニングへの参照 (たとえば、TorchDistributor) を削除し、@distributedから serverless_gpu デコレーターに置き換えます。
  2. データの読み込みを更新します。 直接 DBFS パスを Unity カタログ ボリューム パス (/Volumes/...) に置き換えます。 ローカルの Spark DataFrame 操作を Spark Connect に置き換えます。
  3. 依存関係を再インストールします。 Databricks Runtime ML の事前インストール済みライブラリに依存しないでください。 必要なすべてのパッケージに明示的な %pip install コマンドを追加します。
  4. チェックポイント パスを更新します。 チェックポイントを DBFS またはローカル ストレージから Unity カタログ ボリューム (/Volumes/<catalog>/<schema>/<volume>/...) に移動します。
  5. MLflow 構成を更新します。 実験名で絶対パスを使用し、実行名を構成して、簡単に再起動できるようにします。
  6. 最初に対話形式でテストします。 ジョブとしてスケジュールする前に、対話型ノートブックでワークロードを検証します。

使用状況とコストを追跡する

課金対象の使用状況システム テーブル (system.billing.usage) を照会することで、AI ランタイム GPU の支出を監視できます。 次のクエリは、サーバーレス GPU ワークロードの合計使用量を返します。

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

課金対象の使用状況テーブル スキーマの詳細については、「 課金対象の使用状況システム テーブルリファレンス」を参照してください

モデル トレーニング SKU の GPU 時間あたりの AI ランタイム料金は、次の価格で行われます。

  • H100 オンデマンド: $7.00/GPU 時間 (米国東部)
  • A10 オンデマンド: $4.90/GPU 時間 (米国東部)

サンプルのノート

作業の開始に役立つノートブックの例には、次のカテゴリがあります。

カテゴリ 説明
大規模言語モデル (LLM) パラメーター効率の高いメソッドを含む大規模な言語モデルの微調整 (LoRA、QLoRA)
Computer Vision 物体検出、画像分類、およびその他の CV タスク
ディープ ラーニング レコメンダー システム 2 タワー モデルのような最新のディープ ラーニング アプローチを使用したレコメンデーション システムの構築
クラシック ML XGBoost モデルのトレーニングや時系列予測を含む従来の ML タスク
マルチ GPU 分散トレーニング サーバーレス GPU API を使用した複数の GPU 間でのトレーニングのスケーリング

完全な一覧については、 AI ランタイムのノートブックの例を参照してください。

Troubleshooting

Genie Code は、ライブラリのインストール エラーの修正プログラムの診断と提案に役立ちます。 Genie Code を使用したコンピューティング環境エラーのデバッグを参照してください。

ValueError: numpy.dtype のサイズが変更されました。バイナリ非互換性を示している可能性があります。 C ヘッダーから 96 が予想され、PyObject から 88 が取得されました

このエラーは通常、依存パッケージのコンパイル中に使用される NumPy バージョンと、ランタイム環境に現在インストールされている NumPy バージョンが一致しない場合に発生します。 多くの場合、この非互換性は NumPy の C API の変更によって発生し、NumPy 1.x から 2.x に特に顕著です。 このエラーは、ノートブックにインストールされている Python パッケージによって NumPy のバージョンが変更された可能性があることを示します。

推奨される解決策:

ランタイムで NumPy のバージョンを確認し、パッケージと互換性があることを確認します。 プレインストールされている Python ライブラリについては、 環境 4環境 3 のサーバーレス GPU コンピューティングのリリース ノートを参照してください。 別のバージョンの NumPy に依存している場合は、その依存関係をコンピューティング環境に追加します。

PyTorch は、torch をインストールするときに libcudnn を見つけることができません

別のバージョンの torchをインストールすると、 ImportError: libcudnn.so.9: cannot open shared object file: No such file or directoryというエラーが表示されることがあります。 これは、Torch がローカル パス内の cuDNN ライブラリのみを検索するためです。

推奨される解決策:

--force-reinstallをインストールするときにtorchを追加して、依存関係を再インストールします。

%pip install torch --force-reinstall