這很重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 欲了解更多資訊,請參閱Microsoft Azure預覽補充使用條款。
本文說明如何利用 Azure Monitor 的指標與日誌,追蹤 Foundry 模型部署的可用性、效能與使用情況。 Azure Monitor 會自動收集並彙整 Foundry Models 部署中的指標與日誌,讓您能即時查看效能資料並設定問題警示。
先決條件
若要在 Foundry 模型中使用模型部署的監控功能,您需要下列需求:
-
小提示
如果你使用的是無伺服器 API 端點,並且想利用本文中說明的監控功能,將你的無伺服器 API 端點遷移到 Foundry Models。
至少一個模型部署。
要查看指標,至少使用者需要資源上的 Monitoring Reader 角色。
要設定診斷設定:使用者需要資源上的 Monitoring Contributor 角色(或等效角色)。
Metrics
Azure Monitor 會自動從 Foundry 模型收集指標。 不需要設定。 這些計量包括:
- 儲存在 Azure Monitor 時間序列指標資料庫中。
- 輕量且能支援近即時警示。
- 用來追蹤資源效能的長期變化。
檢視計量
Azure Monitor 的指標可以透過多種工具查詢,包括:
Foundry 入口網站
你可以在 Foundry 入口網站查看指標。 若要檢視它們,請遵循下列步驟:
請前往 Foundry 入口網站。
在側邊欄功能表的 [ 我的資產 ] 底下,選取 [模型 + 端點],然後選取您要查看計量的部署名稱。
選取 [計量] 索引標籤。
你可以查看一些可能感興趣的常見指標概覽。 如需成本相關指標,請選擇 Azure 成本管理連結,此連結可在 Azure 入口網站的 成本分析區塊中取得詳細的後期消費成本指標。
Azure portal 中的成本資料顯示模型消費後的實際消費費用,包括 Foundry 內的其他 AI 資源。 欲了解完整的 AI 資源清單,請參見 Build with customizable APIs and models。 從計費事件發生到可在 Azure 入口網站成本分析中檢視,約有五小時的延遲。
這很重要
Azure 成本管理連結在Azure portal內提供直接連結,讓使用者能access部署 AI 模型的詳細成本指標。 此深度連結整合至 Azure 成本分析服務檢視,提供透明且可行的模型層級成本洞察。
深層連結會引導使用者前往 Azure portal 的成本分析檢視,提供一鍵體驗來查看每個資源的部署,包括令牌的輸入/輸出成本與消耗。 要查看成本資料,您需要的 Azure 帳戶擁有至少讀取許可權。 關於指派訪問權限給成本管理資料的資訊,請參見 Assign access to data。
您可以使用 Azure Monitor metrics explorer 查看和分析指標,進一步切片與篩選您的模型部署指標。
指標探索工具
Metrics Explorer 是 Azure portal 中的一個工具,讓你能查看並分析 Azure 資源的指標。 欲了解更多資訊,請參閱使用 Azure Monitor 指標瀏覽器進行指標分析。
要使用 Azure Monitor,請遵循以下步驟:
前往Azure portal。
在搜尋方塊中輸入並選取 [ 監視 ]。
在側邊欄選單中選取Metrics。
在 [選取範圍] 上,選取您想要監視的資源。 您可以選取一個資源,或選取資源群組或訂用帳戶。 如果是這樣,請確保您已將 Resource types 選為 Foundry Tools。
度量指標探索器出現。 選取您想要探索的 計量 。 下列範例顯示對資源中模型部署提出的要求數目。
這很重要
Azure OpenAI 類別中的指標包含資源中Azure OpenAI 模型的指標。 Models 類別包含資源中所有可用的模型,包括 OpenAI、Deepseek 和 Phi Azure。 建議您切換至這組新的指標。 您可以根據需要,新增任意數量的指標至相同圖表或新圖表。
如有需要,您可以依任何可用的維度篩選量度。
若要細分某些維度的特定計量,這非常有用。 下列範例示範如何使用 [ 新增分割] 選項,依模型細分對資源提出的要求數目:
您可以隨時儲存儀錶板,以避免每次都進行設定。
其他工具
支援更複雜視覺效果的工具包括:
- 工作簿:可在Azure portal中自訂的報告。 活頁簿可以包含文字、計量及記錄查詢。
- Grafana:一款在營運儀表板上表現出色的開放平台工具。 你可以用 Grafana 建立包含多個來源資料的儀表板,除了 Azure Monitor。
- Power BI:一項商業分析服務,提供跨多元資料來源的互動視覺化。 你可以設定 Power BI 自動從 Azure Monitor 匯入日誌資料,利用這些視覺化效果。
指標參考
以下是可用的計量類別:
模型 - 要求
| 計量 | 內部名稱 | 單位 | Aggregation | 尺寸 |
|---|---|---|---|---|
|
模型可用性率 使用下列計算的可用性百分比:(總通話 - 伺服器錯誤)/總呼叫數。 伺服器錯誤包含任何 HTTP 回應 >=500。 |
ModelAvailabilityRate |
百分比 | 下限、上限、平均 |
ApiName、OperationName、Region、StreamType、ModelDeploymentName、ModelName、ModelVersion |
|
模型要求 在一段時間內呼叫模型推論 API 的次數。 |
ModelRequests |
計數 | 總計 (總和) |
ApiName、OperationName、Region、StreamType、ModelDeploymentName、ModelName、ModelVersion、StatusCode |
模型 - 延遲
| 計量 | 內部名稱 | 單位 | Aggregation | 尺寸 |
|---|---|---|---|---|
|
回應時間 串流要求的建議延遲 (回應性) 量值。 適用於 PTU 和 PTU 受控部署。 時間計算為使用者傳送提示之後第一個回應所花費的時間,如 API 閘道所測量。 當提示大小增加和/或快取命中大小減少時,這個數量就會增加。 此指標為近似值,因為測量延遲取決於多項因素,包括同時通話與整體工作負載模式。 它沒有考慮到客戶端與 API 端點之間的延遲。 請參閱您自己的記錄,以取得最佳的延遲追蹤。 |
TimeToResponse |
毫秒 | 最大值、最小值、平均 |
ApiName、OperationName、Region、StreamType、ModelDeploymentName、ModelName、ModelVersion、StatusCode |
|
令牌之間的正規化時間 針對串流要求;模型語彙基元產生速率 (以毫秒為單位)。 適用於 PTU 和 PTU 受控部署。 |
NormalizedTimeBetweenTokens |
毫秒 | 最大值、最小值、平均 |
ApiName、OperationName、Region、StreamType、ModelDeploymentName、ModelName、ModelVersion |
模型 - 使用方式
| 計量 | 內部名稱 | 單位 | Aggregation | 尺寸 |
|---|---|---|---|---|
|
輸入令牌 模型上已處理(輸入)的提示令牌數目。 適用於 PTU、PTU 受控和標準部署。 |
InputTokens |
計數 | 總計 (總和) |
ApiName、、 Region、 ModelDeploymentName、 ModelName、 ModelVersion |
|
輸出令牌 從模型產生的令牌數目(輸出)。 適用於 PTU、PTU 受控和標準部署。 |
OutputTokens |
計數 | 總計 (總和) |
ApiName、、 Region、 ModelDeploymentName、 ModelName、 ModelVersion |
|
令牌總數 在模型上處理的推斷令牌數目。 計算為提示令牌(輸入)加上產生的令牌(輸出)。 適用於 PTU、PTU 受控和標準部署。 |
TotalTokens |
計數 | 總計 (總和) |
ApiName、、 Region、 ModelDeploymentName、 ModelName、 ModelVersion |
|
權杖快取比對率 叫用快取的提示語彙基元百分比。 適用於 PTU 和 PTU 受控的部署。 |
TokensCacheMatchRate |
百分比 | 平均 |
Region、ModelDeploymentName、ModelName、ModelVersion |
|
預配置使用率 配置管理部署的利用率百分比,計算為(消耗的 PTU 數量 / 部署的 PTUs)x 100。 當使用率大於或等於 100%時,會限制呼叫,並傳回錯誤碼 429。 |
ProvisionedUtilization |
百分比 | 平均 |
Region、ModelDeploymentName、ModelName、ModelVersion |
|
已佈建的已取用權杖 一段時間內的語彙基元總數減去快取的語彙基元數量。 適用於 PTU 和 PTU 受控的部署。 |
ProvisionedConsumedTokens |
計數 | 總計 (總和) |
Region、ModelDeploymentName、ModelName、ModelVersion |
|
音訊輸入令牌 模型上已處理 (輸入) 的音訊提示權杖數目。 適用於 PTU 管理的模型部署。 |
AudioInputTokens |
計數 | 總計 (總和) |
Region、ModelDeploymentName、ModelName、ModelVersion |
|
音訊輸出令牌 模型上已產生 (輸出) 的音訊提示權杖數目。 適用於 PTU 管理的模型部署。 |
AudioOutputTokens |
計數 | 總計 (總和) |
Region、ModelDeploymentName、ModelName、ModelVersion |
日誌
資源日誌提供關於 Azure 資源執行操作的洞察。 日誌會自動產生,但你必須將它們路由到Azure監控日誌,並透過 配置診斷設定來儲存或查詢。 按類別組織記錄。 在建立診斷設定時,您可以指定要收集的記錄類別。
以下為鑄造模型的日誌類別:
| 類別 | Description |
|---|---|
| 請求回應 | 每個推論請求與回應的日誌,包括狀態碼與延遲。 |
| 追蹤 | 詳細的追蹤記錄用於除錯模型推斷呼叫。 |
| 稽核 | 管理操作,如部署、組態變更及存取控制事件。 |
欲了解更多所有可用日誌類別,請參閱 Azure 監控資源日誌類別。
設定診斷設定
所有指標都可以在 Azure Monitor 裡用診斷設定匯出。 若要使用 Azure 監視器記錄分析查詢來分析記錄與計量資料,您可以為 Foundry Tools 資源設定診斷設定。 對每個資源執行此操作。
要設定 Foundry 資源的診斷設定:
請前往 Azure portal,找到你的 Foundry 資源。
在側邊欄選單的 「監控 」選項中,選擇 診斷設定。
選擇 新增診斷設定。
輸入診斷設定的名稱。
在 「日誌」中,選擇你想收集的 日誌類別 (例如, RequestResponseLogs)。
在 Metrics 中,選擇 AllMetrics 以匯出 metrics。
在 「目的地詳情」中,選擇 「傳送至Log Analytics工作區 」,並在訂閱中選擇工作區。
選取 [儲存]。
備註
在 Log Analytics 工作區中收集資料會產生成本,因此請只收集每個服務所需的類別。 服務之間的資源記錄資料量差異很大。
使用 KQL 查詢日誌
在 你設定診斷設定 將指標傳送到 Log Analytics 後,你可以使用 Kusto 查詢語言(KQL)來查詢和分析日誌資料。
若要查詢計量,請遵循下列步驟:
前往Azure portal。
找到你想查詢的 Foundry 資源。
在側邊欄功能表的 [監視] 底下,選取 [記錄]。 如果查詢視窗選項彈出,請關閉該視窗。
新的查詢分頁會自動出現。 選擇 取樣模式 下拉選單,並選擇 KQL 模式。
要檢視 Azure 指標,請輸入自訂查詢或複製貼上以下查詢:
AzureMetrics | take 100 | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName選擇 執行
備註
當您在資源的功能表中選取 [監視>記錄] 時,Log Analytics 隨即開啟,並將查詢範圍設定為目前資源。 可見的記錄查詢只包含來自該特定資源的資料。 若要查詢包含其他資源資料或其他Azure服務資料,請從Azure portalAzure Monitor選單中選擇Logs。 欲了解更多資訊,請參閱Azure監控日誌分析中的Log查詢範圍與時間範圍。
故障排除
| 問題 | 可能原因 | 解決辦法 |
|---|---|---|
| 指標未出現在指標總覽中 | 資源類型過濾器可能設定不正確。 | 確保 資源類型 在範圍選擇器中設定為 Foundry Tools 。 |
| Log Analytics 沒有日誌資料 | 診斷設定還沒設定好,或者資料還沒到。 | 配置診斷設定 ,以等待資料在最多 15 分鐘內出現。 |
| 指標顯示為零值 | 模型部署可能在選定的時間範圍內無法接收流量。 | 在計量瀏覽器中調整時間範圍,或確認部署是否收到請求。 |
| Microsoft 成本管理中看不到的成本資料 | 缺少授權或帳單延遲。 | 請確認您至少擁有 Azure 帳戶的讀取存取權。 成本資料可能需要長達五小時才能出現。 |
| 模型呼叫時的 429 錯誤 | 配置利用率為100%或以上。 | 檢查 配置利用 率指標,並擴大 PTU 數量,或減少請求量。 |
後續步驟
為 Azure 資源設置度量警報 - 建立Azure監控工作簿
- 了解 Foundry 模型中的部署類型
- Azure 監控概覽