AI 執行環境概述
AI Runtime 是 Databricks 針對 深度學習 工作負載的計算產品,並為 Databricks Serverless 提供 GPU 支援。 你可以使用 AI Runtime 訓練並微調自訂模型,使用你喜愛的框架,獲得最先進的效率、效能與品質。 關於 無伺服器運算 如何融入 Databricks 架構的概述,請參見 無伺服器工作區架構。
關鍵功能
- 完全託管的 GPU 基礎架構 — 無伺服器,靈活存取 GPU,無需叢集配置、驅動程式選擇或自動擴展政策。
- 專為深度學習設計的執行環境 — 選擇最小預設基礎環境以最大化依賴彈性,或是預載流行機器學習框架的完整 AI 環境。
- 原生整合於筆記本、工作、Unity Catalog 與 MLflow,實現無縫開發、資料存取與實驗追蹤。
硬體選項
所有 AI 執行時加速器都配置單一節點。 該節點上的 GPU 數量取決於加速器類型:
| 加速器 | 每個節點的 GPU 數 | GPU 記憶體 | 最適合用於 | 分散式訓練 |
|---|---|---|---|---|
| 1xA10 | 1 | 24 GB | 中小型機器學習與深度學習任務,如經典機器學習模型或微調較小語言模型 | 不支援(單一 GPU) |
| 8xH100 | 8 | 每張 GPU 80 GB | 大型 AI 工作負載,包括訓練或微調大型模型,或執行進階深度學習任務 | 支援:使用 @distributed 裝飾器與 gpus=8 |
建議使用案例
Databricks 建議在涉及深度學習、大規模經典工作負載或 GPU 的任何客製化模型訓練使用情境中使用 AI Runtime。
例如:
- LLM 微調(LoRA、QLoRA、完整微調)
- 電腦視覺(物體偵測、影像分類)
- 基於深度學習的推薦系統
- 增強式學習
- 以深度學習為基礎的時間序列預測
要求
- 以下 Azure 支援區域之一的工作空間:
centraluseastuseastus2northcentraluswestcentraluswestuswestus3
局限性
- AI Runtime 僅支援 A10 和 H100 加速器。
- AI 執行環境不支援合規安全設定檔工作區(如 HIPAA 或 PCI)。 不支援處理受管制的資料。
- AI 執行時排程工作不支援使用 環境 面板新增相依性。 建議在你的筆記本中使用
%pip install透過程式安裝相依套件。 - 對於 AI 執行時的排程工作,不支援與筆記本相關且不相容的套件版本自動恢復行為。
- 工作負載的執行時間上限為 7 天。 對於超過此限制的模型訓練工作,應實作檢查點,並在達到最大執行時間後重新啟動工作。
- AI 執行環境提供按需存取 GPU 資源。 雖然這讓 GPU 取得更輕鬆且靈活,但有時區域容量有限或無法使用。
- AI Runtime 在某些情況下會利用跨區域 GPU,特別是在需求高峰時。 使用此類可能涉及流出成本。
連接 AI 執行環境
你可以從筆記本互動連接 AI 執行環境,將筆記本排程為重複工作,或使用 Jobs API 和 Databricks 資產套件以程式化方式建立工作。 有關逐步說明,請參見 「連接 AI 執行環境」。
建立環境
AI 執行環境提供兩個託管的 Python 環境:一個是最小預設的基礎環境,另一個是功能完整的 Databricks AI 環境,預載了像 PyTorch 和 Transformers 這類熱門的機器學習框架。 關於選擇環境、快取行為、匯入自訂模組及已知限制的細節,請參見 「設定您的環境」。
讀取資料
了解 AI 執行時的資料存取運作方式,對於流暢的體驗至關重要。 詳情請參見 AI 執行時載入資料。
分散式訓練
這很重要
這項功能位於 測試版 (Beta) 中。 工作區管理員可以從 「預覽 」頁面控制對此功能的存取。 請參見 管理Azure Databricks預覽。
AI Runtime 支援在連接的單一節點上,透過多個 GPU 進行分散式訓練。 使用 @distributed Python API(Beta)中的 serverless_gpu decorator,你可以使用最少的設定來啟動多 GPU 任務,並運行 PyTorch DDP、FSDP 或 DeepSpeed。 詳情請參見 多GPU工作負載。
實驗追蹤與可觀測性
關於 MLflow 整合、查看日誌及模型檢查點管理,請參見 實驗追蹤與可觀察性。
Genie Code 用於深度學習
Genie Code 支援在 AI 執行環境上進行深度學習工作負載。 它能協助產生訓練程式碼、解決函式庫安裝錯誤、建議優化方案及除錯常見問題。 請參見 使用 Genie Code 來了解資料科學。
Guides
關於從經典工作負載遷移、範例筆記本及故障排除,請參閱 AI 執行環境使用者指南。