AI 執行時的使用者指南

這很重要

針對單節點任務的 AI 執行時正在公開預覽中。多GPU工作負載的分散式訓練API仍處於測試階段。

本頁包含遷移資訊、範例筆記本連結及故障排除資訊。

將經典 GPU 工作負載遷移到無伺服器

如果您正將現有的深度學習工作負載從經典的 Databricks 叢集（搭配 Databricks Runtime ML）遷移到無伺服器（搭配 AI 執行環境）的，請遵循以下步驟：

替換依賴叢集的程式碼。 移除所有關於基於 Spark 的分散式訓練（例如 TorchDistributor）的參考，並以 serverless_gpu 中的 @distributed 裝飾器取代。
更新資料載入中。 將直接的 DBFS 路徑替換為 Unity Catalog 的卷軸路徑（/Volumes/...）。用 Spark Connect 取代本地的 Spark DataFrame 操作。
重新安裝依賴庫。 不要依賴 Databricks 的 Runtime ML 預裝函式庫。為所有必需套件新增明確 %pip install 指令。
更新檢查點路徑。 將檢查點從 DBFS 或本地儲存移到 Unity 目錄卷（/Volumes/<catalog>/<schema>/<volume>/...）。
更新 MLflow 設定。 確保實驗名稱使用絕對路徑，並設定執行檔名以便輕鬆重新啟動。
先互動測試。 在排程前，先在互動筆記本中驗證你的工作量。

你可以透過查詢可計費使用系統表（）system.billing.usage來監控你的 AI 執行時 GPU 支出。以下查詢會回傳無伺服器 GPU 工作負載的總使用率：

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

欲了解更多可計費使用表架構，請參閱可計費使用系統資料表參考。

AI Runtime 對模型訓練 SKU 按 GPU 小時收費，價格如下：

以下範例筆記本類別可供你起步：

類別	說明
大型語言模型（LLM）	微調大型語言模型，包括參數效率方法（LoRA、QLoRA）
電腦視覺	物件偵測、影像分類及其他 CV 任務
深度學習推薦系統	利用現代深度學習方法如雙塔模型建構推薦系統
經典機器學習	傳統機器學習任務包括 XGBoost 模型訓練與時間序列預測
多GPU分散式訓練	利用 Serverless GPU API 跨多 GPU 擴展訓練

Genie Code 可以幫助診斷並建議函式庫安裝錯誤的修正方法。請參見「使用 Genie Code 來除錯運算環境錯誤」。

錯誤通常發生在編譯相依套件時所使用的 NumPy 版本與執行環境中目前安裝的 NumPy 版本不符。這種不相容性通常是由於 NumPy 的 C API 的變化而發生的，從 NumPy 1.x 到 2.x 尤其明顯。此錯誤表示筆記本中安裝的Python套件可能已變更NumPy版本。

推薦解決方案：

在運行時檢查 NumPy 版本並確保它與您的套件相容。請參閱環境 4 與環境 3 的 Serverless GPU Compute 發布說明，了解預先安裝的 Python 函式庫資訊。如果您對不同版本的 NumPy 有相依性，請將該相依性新增至您的計算環境。

當您安裝不同版本的 torch時，您可能會看到錯誤： ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory。這是因為 torch 只會在本機路徑中搜尋 cuDNN 函式庫。

推薦解決方案：

請在安裝torch時重新安裝相依項目，並加入--force-reinstall：

%pip install torch --force-reinstall

此頁面對您有幫助嗎？