無伺服器 GPU 計算

這很重要

這項功能位於測試版 (Beta) 中。工作區管理員可以從 「預覽 」頁面控制對此功能的存取。請參閱管理 Azure Databricks 預覽。

本文說明 Databricks 上的無伺服器 GPU 計算，並提供建議的使用案例、如何設定 GPU 計算資源和功能限制的指引。

什麼是無伺服器 GPU 計算？

無伺服器 GPU 計算是無伺服器計算供應專案的一部分。無伺服器 GPU 計算是針對自定義單一和多節點深度學習工作負載特製化。您可以使用無伺服器 GPU 計算，使用您慣用的架構來定型和微調自定義模型，並取得最先進的效率、效能和品質。

無伺服器 GPU 計算包括：

Notebook、Unity 目錄和 MLflow 之間的整合式體驗： 您可以使用 Notebooks 以互動方式開發程式代碼。
A10 GPU 加速器：A10 GPU 旨在加速中小型機器學習和深度學習工作負載，包括經典 ML 模型和微調較小的語言模型。 A10 非常適合具有中等計算要求的任務。
多 GPU 和多節點支援： 您可以使用無伺服器 GPU Python API 執行分散式訓練工作負載、多個 GPU 和多個節點。請參閱分散式訓練。

無伺服器 GPU 計算上預安裝的套件不是 Databricks Runtime ML 的取代專案。雖然有一般套件，但並非所有 Databricks 執行時間 ML 依賴項和函式庫都會反映在無伺服器 GPU 計算環境中。

無伺服器 GPU 運算上的 Python 環境

Databricks 提供兩個受控環境來服務不同的使用案例。

備註

工作空間基層環境不支援無伺服器 GPU 運算。請改用預設或 AI 環境，並直接在「環境」側邊面板pip install或其中指定其他相依性。

預設基礎環境

這提供了一個具有穩定客戶端 API 的最小環境，以確保應用程序兼容性。只會安裝必要的 Python 套件。這可讓 Databricks 獨立升級伺服器、提供效能改善、安全性增強功能，以及錯誤修正，而不需要對工作負載進行任何程式代碼變更。這是選擇無伺服器 GPU 運算時的預設環境。如果您想要完全自訂訓練的環境，請選擇此環境。

關於不同版本中安裝的套件版本，請參閱發布說明：

AI 環境

Databricks AI 環境可在無伺服器 GPU 環境 4 中使用。 AI 環境建立在預設基礎環境之上，包含常見的執行時套件以及專為 GPU 機器學習設計的套件。它包含了熱門的機器學習函式庫，包括 PyTorch、LangChain、Transformers、Ray 和 XGBoost，用於模型訓練與推論。選擇這個環境來執行訓練工作負載。更多細節請參考文件。

關於不同版本中安裝的套件版本，請參閱發布說明：

AI 環境 4

建議使用案例

Databricks 建議使用無伺服器 GPU 計算資源，適用於任何需要訓練自定義及 GPU 的模型訓練使用案例。

例如：

LLM 微調
計算機視覺
推薦系統
增強式學習
以深度學習為基礎的時間序列預測

需求

下列其中一個 Azure 支持區域的工作區：
- eastus
- eastus2
- centralus
- northcentralus
- westcentralus
- westus

設定伺服器無需 GPU 計算

若要將筆記本連線到無伺服器 GPU 運算並設定環境：

在筆記本中，按一下頂端的 [連線 ] 下拉式功能表，然後選取 [ 無伺服器 GPU]。
按一下以開啟 「環境」 側邊面板。
從 [加速器] 欄位選取 [A10]。
在基本環境欄位中選取無以設為預設環境，或選取AI v4以設為AI環境。
按一下 [套用] ，然後 按一下 [確認 您要將無伺服器 GPU 計算套用至筆記本環境]。

備註

閒置 60 分鐘後將自動終止與您的計算資源的連線。

將函式庫新增至環境

您可以在無伺服器 GPU 計算環境中安裝額外的函式庫。請參閱將相依性新增至筆記本。

備註

在無伺服器 GPU 運算排程工作中，不支援使用「環境」面板新增相依性，如將相依性新增至筆記本中所示。

建立和排程工作

下列步驟說明如何為無伺服器 GPU 運算工作負載建立和排程任務。如需詳細資訊，請參閱建立和管理排程的筆記本作業。

開啟您要使用的筆記本之後：

選取右上角的排程按鈕。
選取 [新增排程]。
使用「工作名稱」、「排程」和「計算」填入「新排程」表單。
選取 ，創建。

您也可以透過 作業和管線 UI 來建立和排定作業。請參閱建立新作業以取得逐步指引。

分散式訓練

參見分散式訓練。

局限性

無伺服器 GPU 運算僅支援 A10 加速器。
不支援 Private Link。不支援 Private Link 後面的儲存或 pip 倉庫。
合規性安全性配置檔工作區不支援無伺服器 GPU 計算（例如 HIPAA 或 PCI）。 目前不支持處理受管制的數據。
在無伺服器 GPU 運算平台上的排程任務，不支援與 Notebook 相關聯的不相容套件版本的自動修復功能。
工作負載的執行時間上限為 7 天。對於超過此限制的模型訓練工作，請實作檢查點，並在達到執行時間上限後重新啟動工作。

數據載入

請參見「在無伺服器 GPU 運算上載入資料」。

最佳做法

請參閱無伺服器 GPU 運算的最佳實務。

伺服器無需 GPU 運算問題排解

如果您在無伺服器 GPU 運算上執行工作負載時遇到問題，請參閱疑難排解指南，以取得常見問題、因應措施和支援資源。

筆記本範例

以下是各種筆記本範例，示範如何使用無伺服器 GPU 運算來執行不同的任務。

任務	Description
大型語言模型（LLM）	微調大型語言模型的範例，包括參數高效的方法，如低秩適應（LoRA）和監督微調方法。
電腦視覺	電腦視覺任務的範例，包括物件偵測和影像分類。
基於深度學習的推薦系統	使用現代深度學習方法（例如雙塔模型）建立推薦系統的範例。
經典機器學習	傳統機器學習任務的範例，包括 XGBoost 模型訓練和時間序列預測。
多 GPU 和多節點分散式訓練	使用無伺服器 GPU API 跨多個 GPU 和節點擴展訓練的範例，包括分散式微調。

多GPU訓練範例

請參閱 Multi-GPU and multi-node distributed training 的筆記本，展示如何利用各種分散式訓練函式庫進行多 GPU 訓練。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-02-08