使用無伺服器即時推斷提供模型

重要

此檔已淘汰，且可能未更新。不再支援此內容中所提及的產品、服務或技術。
本文中的指引適用於模型服務功能的預覽版本，先前稱為無伺服器即時推斷。 Databricks 建議您將服務工作流程的模型移轉至正式運作的功能。請參閱使用 Azure Databricks 提供服務的模型。

重要

這項功能處於公開預覽狀態。

本文說明與 Azure Databricks 無伺服器即時推斷搭配服務的模型，包括相較於舊版 MLflow 模型服務的優點和限制。

無伺服器即時推斷將 MLflow 機器學習模型公開為可調整的 REST API 端點。這項功能會使用無伺服器計算，這表示端點和相關聯的計算資源會在 Databricks 帳戶中管理並執行。如需詳細資訊，請參閱無伺服器即時推斷定價頁面。

舊版 MLflow 模型服務會使用單一節點叢集，在現在稱為傳統計算平面內的您自己的帳戶下執行。此計算平面包含虛擬網路及其相關聯的計算資源，例如筆記本和作業的叢集、專業和傳統 SQL 倉儲，以及提供端點的傳統模型。

為何使用無伺服器即時推斷？

無伺服器即時推斷提供：

能夠按下即可啟動端點：Databricks 會自動為您的模型準備生產環境，並提供無伺服器設定選項來進行計算。
高可用性和延展性：無伺服器即時推斷適用於生產環境使用，且每秒最多可支援 3000 個查詢（QPS）。無伺服器即時推斷端點會自動相應增加和減少，這表示端點會根據評分要求量自動調整。
儀錶板：使用內建無伺服器即時推斷儀錶板，使用QPS、延遲和錯誤率等計量來監視模型端點的健康情況。
功能存放區整合：當您的模型使用來自 Databricks 功能存放區的功能定型時，模型會以功能元數據封裝。如果您設定在線商店，這些功能會實時納入，因為收到評分要求。

這項服務處於預覽狀態時，適用下列限制：

除非工作區中已啟用IP允許清單，否則無伺服器即時推斷端點會針對輸入流量開啟至因特網，在此情況下，此清單也適用於端點。

無伺服器即時推斷可在下列 Azure 區域中使用：

將模型從預備環境轉換到生產環境需要時間。部署新註冊的模型版本牽涉到建置模型容器映像和布建模型端點。此程式可能需要約 5 分鐘的時間。

Databricks 會藉由將現有的模型部署保持在就緒狀態，以執行和 /production 端點的「零停機」更新/staging。這樣做可確保使用中的模型端點不會中斷。

如果模型計算花費的時間超過 60 秒，要求將會逾時。如果您認為模型計算需要超過 60 秒的時間，請連絡您的 Databricks 支持聯繫人。

重要

在公開預覽期間，您必須連絡 Databricks 支持聯繫人，以在您的工作區上啟用無伺服器即時推斷。

您必須先在工作區上啟用無伺服器即時推斷端點，才能建立無伺服器即時推斷端點。如需模型服務，請參閱啟用無伺服器即時推斷端點。

在工作區上啟用無伺服器即時推斷端點之後，您需要下列許可權來建立模型服務的端點：