使用 ML 模型端點提供即時預測 (預覽)

這很重要

這項功能目前處於預覽階段。

Microsoft Fabric 讓你能透過安全、可擴展且易於使用的線上端點,從機器學習模型提供即時預測。 這些端點作為大多數 Fabric 模型的內建屬性提供,且無需設定即可啟動全管理的即時部署。

您可以使用 公開的 REST API 來啟用、設定及查詢模型端點。 你也可以直接從 Fabric 介面開始,利用低程式碼體驗即時啟動模型端點並預覽預測結果。

截圖,展示一個內建端點特性的機器學習Fabric模型,提供即時預測。

先決條件

  • 機器學習模型端點預設在你的租戶中啟用。 如果你的管理員想關閉這個功能,可以在Fabric管理入口網站關閉機器學習模型端點的租戶開關的功能。

局限性

  • 端點目前適用於一組有限的ML模型類別,包括 Keras、LightGBM、Sklearn 和 XGBoost。
  • 端點目前 無法使用 於具有 tensor 架構或無架構的模型。

備註

截至 2026 年 1 月,機器學習端點現已支援 AutoML 訓練模型。 此先前的限制已被移除。

開始使用模型端點

Fabric 中的機器學習模型預建了可用於即時預測的線上端點。 每個註冊型號版本都有專用的端點 URL,可在 Fabric 介面的「端點詳情」欄位中找到。 此網址結尾為指定該特定版本的子路徑(例如, 。 /versions/1/score

此螢幕快照顯示 ML 模型端點的屬性,可用來提供實時預測。

模型端點具有下列屬性:

財產 說明 預設值
默認版本 這個屬性 (YesNo) 指出版本是否設定為模型提供實際預測的預設值。 您可以在模型的設定中 自訂預設版本 No
狀態 這個屬性指出端點是否準備好提供預測。 狀態可以是 InactiveActivatingActiveDeactivatingFailed。 只有作用中的端點才能提供預測。 Inactive
自動睡眠 這個屬性(OnOff)表示在沒有流量的情況下,端點是否應將容量使用率縮減為零。 如果自動睡眠已開啟,則端點會在五分鐘后進入閑置狀態,而不需要傳入要求。 喚醒閑置端點的第一個呼叫牽涉到短暫的延遲。 On

啟動模型端點

你可以直接從 Fabric 介面啟動模型端點。 請導覽到你想要提供即時預測的版本,並從功能區選擇「啟用版本端點」。

截圖顯示如何在 Fabric 介面中啟動機器學習模型端點。

一個通知訊息顯示 Fabric 正在準備你的端點,以便立即提供預測服務,並使端點狀態變成「啟用中」。在幕後,Fabric 會啟動底層的容器基礎架構來承載你的模型。 在幾分鐘內,您的端點已準備好提供預測。

此螢幕快照顯示正在啟動的ML模型端點。

每個端點都有一個狀態,顯示是否準備好提供即時預測:

狀態 說明
Inactive 端點並未啟用以提供即時預測,也不會消耗 Fabric 容量。
Activating 端點已設定為提供實時預測。 在幕後,Fabric 建立底層容器基礎設施來承載模型。 在幾分鐘內,端點會處於作用中狀態。
Active 端點已準備好提供實時預測。 在幕後,Fabric 管理底層基礎設施,根據輸入流量調整資源使用量。 流量增加會導致 Fabric 容量使用率提高。
Deactivating 端點被停用,不再提供即時預測或消耗 Fabric 容量。 在幕後,Fabric 分解底層的容器基礎設施。

備註

ML 模型可以一次支援最多五個版本的有效端點。 若要從第六個版本提供預測,您必須先 停用作用中的端點

管理模型端點

如需模型使用中端點的概觀,請從介面的功能區選取 [管理端點]。 每個模型都有可自定義的預設端點,可提供您選擇的版本預測。 您可以使用設定窗格中的下拉式選取器來更新預設版本。

顯示預設 ML 模型端點 URL 的螢幕快照,您可以設定為從特定版本提供預測。

這很重要

如果您打算使用它,請務必將默認屬性設定為使用中版本。 如果未設定預設屬性,或設定為非使用中版本,則呼叫預設端點會失敗。

所有有活躍端點的版本都會在模型端點設定中列出。 您可以將切換器切換為 「開啟」或「關閉」,以修改每個端點的自動睡眠屬性。

顯示如何在 ML 模型端點上變更自動睡眠屬性的螢幕快照。

小提示

具有自動睡眠功能的活躍端點在五分鐘內無流量後會進入閒置狀態,首次喚醒它們的時候會有短暫的延遲。 您可能想要關閉生產環境中端點的這個屬性。

查詢模型的端點以獲得即時預測

模型端點可在 Fabric 中提供即時測試,提供低程式碼體驗。 導覽到具有作用中端點的版本,然後從介面的工具列選取 [預覽預測]。 你可以透過與模型輸入簽名相符的表單欄位,向端點發送樣本請求,並即時獲得樣本預測。

此螢幕快照顯示從使用中ML模型端點取得範例預測的內建預覽體驗。

若要以隨機取樣值填入表單域,請選取 [自動填入]。您可以新增更多表單值集,以使用多個輸入來測試端點。 選取 [取得預測] 以將您的範例要求傳送至端點。

螢幕快照顯示表單型檢視,用於將範例要求傳送至使用中的機器學習模型端點。

如果您想要將範例要求格式化為 JSON 承載,請使用下拉式清單選取器來變更檢視。

此螢幕快照顯示將範例要求傳送至作用中 ML 模型端點的 JSON 型檢視。

停用模型端點

你可以直接從 Fabric 介面停用模型端點。 流覽至您不再需要提供即時預測的版本,並從介面的功能區選取 [停用版本端點]。

截圖,展示如何從Fabric介面停用機器學習模型端點。

一個彈出訊息顯示 Fabric 正在解除你的活躍部署,端點狀態會變為「停用中」。若未重新啟用,該端點將無法提供即時預測。

顯示目前停用之 ML 模型端點的螢幕快照。

你可以從模型的設定面板中同時停用多個版本的端點。 從介面的功能區選取 [管理端點],然後選擇一或多個作用中端點來停用。

截圖,展示如何從Fabric介面同時停用多個機器學習模型端點。

消耗率

承載活躍模型端點會消耗 Fabric 容量單元(CU)。 端點在計算節點上執行,並可根據傳入流量自動擴展至三個節點。 當端點處於作用中狀態時,會按節點計算計費。 下表顯示主動式Machine Learning模型端點的CU消耗量。

運算 測量作業單位 消耗率
模型端點 每個節點每秒 1 個模型端點 (版本) 5 CU 秒

下表顯示範例案例及其對應的耗用量率和每小時成本。

場景 說明 消耗率 每小時成本
具有非作用中端點的模型 這些模型沒有作用中版本端點,也沒有相關聯的資源使用率。 它們不涉及額外費用。 0 CU 秒 0 CU 小時
具有作用中但閒置端點的模型 這些模型具有一或多個作用中版本端點,但如果沒有常規流量,所有端點都已擴展至零,從而自動降低成本。 5 CU 秒 0.42 CU 小時
具有 1 個作用中端點且流量持續低的型號 這些模型只有 1 個作用中版本端點提供預測,但沒有足夠的流量來觸發完整橫向擴展。一個節點可以服務所有流量。 其他版本端點可能處於非作用中或閒置狀態。 5 CU 秒 5 CU 學時
具有 1 個作用中端點和持續高流量的模型 這些模型只有 1 個作用中版本端點提供預測,且流量足以觸發完整橫向擴展。其他版本端點可能處於非作用中或閒置狀態。 15 CU 秒 15 CU 小時
具有 5 個活動端點和持續高流量的模型 這些模型有 5 個作用中版本端點 (目前限制) 提供預測,每個端點都有足夠的流量來觸發完整橫向擴展。 75 CU 秒 75 CU 小時

Fabric容量指標應用程式以「Model Endpoint」名稱顯示模型端點操作的總容量使用情況。 此外,用戶可以在發票項目「ML 模型端點容量使用量 CU」底下,檢視其模型端點使用費用的摘要。

模型端點作業會分類為 背景作業

消費率隨時可能會變更。 Microsoft 會透過電子郵件或產品內通知合理地提供通知。 變更將於 Microsoft 發布說明或 Microsoft Fabric 部落格所列日期生效。 若 Fabric Consumption Rate 中模型端點的任何變更大幅增加所需容量單位(CU),客戶可使用所選付款方式的取消選項。