使用無伺服器即時推斷提供模型

重要

  • 此檔已淘汰,且可能未更新。 不再支援此內容中所提及的產品、服務或技術。
  • 本文中的指引適用於模型服務功能的預覽版本,先前稱為無伺服器即時推斷。 Databricks 建議您將服務工作流程的模型移轉至正式運作的功能。 請參閱 使用 Azure Databricks 提供服務的模型。

重要

這項功能處於公開預覽狀態

本文說明與 Azure Databricks 無伺服器即時推斷搭配服務的模型,包括相較於舊版 MLflow 模型服務的優點和限制。

無伺服器即時推斷將 MLflow 機器學習模型公開為可調整的 REST API 端點。 這項功能會使用 無伺服器計算,這表示端點和相關聯的計算資源會在 Databricks 帳戶中管理並執行。 如需詳細資訊,請參閱無伺服器即時推斷定價頁面

舊版 MLflow 模型服務 會使用單一節點叢集,在現在稱為傳統計算平面內的您自己的帳戶下執行。 此計算平面包含虛擬網路及其相關聯的計算資源,例如筆記本和作業的叢集、專業和傳統 SQL 倉儲,以及提供端點的傳統模型。

為何使用無伺服器即時推斷?

無伺服器即時推斷提供:

  • 能夠按下即可啟動端點:Databricks 會自動為您的模型準備生產環境,並提供無伺服器設定選項來進行計算。
  • 高可用性和延展性:無伺服器即時推斷適用於生產環境使用,且每秒最多可支援 3000 個查詢(QPS)。 無伺服器即時推斷端點會自動相應增加和減少,這表示端點會根據評分要求量自動調整。
  • 儀錶板:使用內建無伺服器即時推斷儀錶板,使用QPS、延遲和錯誤率等計量來監視模型端點的健康情況。
  • 功能存放區整合:當您的模型使用來自 Databricks 功能存放區的功能定型時,模型會以功能元數據封裝。 如果您 設定在線商店,這些功能會實時納入,因為收到評分要求。

限制

這項服務處於預覽狀態時,適用下列限制:

  • 每個要求的承載大小限製為16 MB。
  • 每個已註冊工作區的評分要求預設限制為 200 個 QPS。 您可以連絡 Databricks 支持聯繫人,將此限制增加到每個工作區最多 3000 個 QPS。
  • 在 100 毫秒的延遲額外負荷和可用性上,盡最大努力支援。
  • 模型服務不支援 init 腳本。

除非工作區中已啟用IP允許清單,否則無伺服器即時推斷端點會針對輸入流量開啟至因特網,在此情況下,此清單也適用於端點。

區域可用性

無伺服器即時推斷可在下列 Azure 區域中使用:

  • eastus2
  • westus
  • eastus
  • westeurope
  • centralus
  • northcentralus
  • northeurope

預備和生產時間預期

將模型從預備環境轉換到生產環境需要時間。 部署新註冊的模型版本牽涉到建置模型容器映像和布建模型端點。 此程式可能需要約 5 分鐘的時間。

Databricks 會藉由將現有的模型部署保持在就緒狀態,以執行和 /production 端點的「零停機」更新/staging。 這樣做可確保使用中的模型端點不會中斷。

如果模型計算花費的時間超過 60 秒,要求將會逾時。如果您認為模型計算需要超過 60 秒的時間,請連絡您的 Databricks 支持聯繫人。

必要條件

重要

在公開預覽期間,您必須連絡 Databricks 支持聯繫人,以在您的工作區上啟用無伺服器即時推斷。

您必須先在工作區上啟用無伺服器即時推斷端點,才能建立無伺服器即時推斷端點。 如需模型服務,請參閱啟用無伺服器即時推斷端點。

在工作區上啟用無伺服器即時推斷端點之後,您需要下列許可權來建立模型服務的端點:

其他資源