共用方式為


產生式 AI 中的可觀察性

這很重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

AI 應用生命週期需要健全的評估框架,以確保 AI 系統提供準確、相關且可靠的輸出。 若缺乏嚴謹評估,AI 系統有可能產生不準確、不一致、缺乏根據或潛在有害的回應。 可觀察性讓團隊能在整個開發生命週期中,從模型選擇到生產監控,衡量並提升 AI 輸出的品質與安全性。

備註

Microsoft Foundry SDK 用於評估與 Foundry 入口網站目前處於公開預覽階段,但 API 通常可用於模型與資料集評估(代理評估仍處於公開預覽階段)。 本文中標記為(預覽)的評估項目目前在全球各地已進入公眾預覽階段。

何謂可檢視性?

AI 可觀察性指的是監控、理解並排除 AI 系統在其生命週期中的故障能力。 團隊可以追蹤、評估、整合自動化品質閘門到CI/CD管線中,並收集評估指標、日誌、追蹤及模型輸出等訊號,以掌握效能、品質、安全及營運健康狀況。

核心可觀察性能力

Microsoft Foundry 提供三項核心功能,協同運作,提供涵蓋 AI 應用生命週期的全面可觀察性:

Evaluation

評估者在整個開發過程中衡量 AI 回應的品質、安全性與可靠性。 Microsoft Foundry 內建評估器,涵蓋通用品質指標(連貫性、流暢度)、RAG 專屬指標(貼地性、相關性)、安全與保法(仇恨/不公平、暴力、受保護資料)及代理專屬指標(工具呼叫準確度、任務完成度)。 團隊也能打造符合其領域特定需求的客製化評估器。

關於內建評估器的完整列表,請參見內建評估器參考。

監測

生產監控確保您的部署的 AI 應用程式在真實環境中能維持品質與效能。 Microsoft Foundry 與 Azure Monitor Application Insights 整合,提供即時儀表板,追蹤營運指標、代幣消耗、延遲、錯誤率及品質分數。 團隊可以在輸出未達品質門檻或產生有害內容時設置警示,促進問題快速解決。

關於如何設定生產監控的細節,請參閱 監控代理者儀表板

追踪

分散式追蹤捕捉 AI 應用的執行流程,提供對 LLM 呼叫、工具調用、代理決策及服務間相依關係的可視化。 基於 OpenTelemetry 標準並整合 Application Insights 的追蹤功能,能夠除錯複雜的代理行為、識別效能瓶頸,以及理解多步驟的推理過程。 Microsoft Foundry 支援針對包括 LangChain、Semantic Kernel 及 OpenAI Agents SDK 等熱門框架的追蹤。

關於實作追蹤的指引,請參閱 「追蹤你的應用程式 」和 「用代理程式追蹤」SDK

什麼是評估者?

評估器是專門的工具,用來衡量 AI 回應在整個開發生命週期中的品質、安全性與可靠性。

關於內建評估器的完整列表,請參見內建評估器參考。

評估人員整合進 AI 生命週期的每個階段,以確保可靠性、安全性與效能。

AI 應用生命週期圖,展示模型選擇、建置 AI 應用及實際操作過程。

AI 應用生命週期評估的三個階段

基本模型選取

透過比較不同模型的品質、任務表現、倫理考量及安全性,選擇合適的基礎模型。

可用工具包括: Microsoft Foundry 基準測試 ,用於比較公開資料集或自有資料的模型,以及 Azure AI 評估 SDK 用於 測試特定模型端點

實際執行環境前評估

部署前,徹底測試確保您的 AI 代理或應用程式已準備好投入生產環境。 此階段透過評估資料集驗證效能,識別邊緣案例,評估穩健性,並衡量任務依從性、紮實性、相關性與安全性等關鍵指標。 關於建立具多輪對話、工具調用及狀態管理的可用於生產環境的代理,請參見 Foundry Agent Service

模型與應用的前期生產評估示意圖,包含六個步驟。

評估工具與方法:

實際執行環境後監視

部署後, 持續監控 確保您的 AI 應用在真實環境中能維持品質:

  • 營運指標:定期衡量關鍵 AI 代理營運指標
  • 持續評估:以抽樣速率評估生產運輸的品質與安全
  • 預定評估:利用測試資料集進行預定品質與安全性評估以偵測系統漂移
  • 預定紅隊:預定的對抗性測試,以探究安全與安全漏洞
  • Azure Monitor 警示:當輸出未達品質門檻或產生有害內容時的通知

與 Azure Monitor Application Insights 整合後,Foundry 可觀察性儀表板提供即時的效能、安全與品質指標洞察,促進快速問題解決並維持使用者信任。

評估速查表

目標 流程 參數、指引與樣本
如何設定追蹤? 配置分散式追蹤 追蹤概述

Trace with Agents SDK
您正在評估什麼? 識別或建置相關的評估工具 內建評估器

自訂評估器

Python SDK 範例

C# SDK 範例
您應該使用哪些資料? 上傳或產生相關的資料集 選擇或建立資料集
如何進行評估? 執行評估 代理評估執行

遠端雲端執行
我的模型/AI 應用表現如何? 分析結果 查看評估結果

群集分析
如何改善? 分析結果並優化代理人 叢集分析分析評估失敗。

優化代理人並 重新評估

檢視 評估結果

區域支援、速率限制與虛擬網路支援

要了解哪些區域支援 AI 輔助評估員、評估執行適用的速率限制,以及如何配置虛擬網路支援以進行網路隔離,請參閱 區域支援、速率限制及虛擬網路支援評估

定價

觀測性功能,例如風險與安全評估以及代理平台中的評估,皆依據我們在Azure 價格頁面列出的使用量計費。

這很重要

在 Agents Playground 中的評估預設為所有 Foundry 專案啟用,並包含在基於使用量的計費中。 要關閉遊樂場評估,請在代理程式遊樂場右上角選擇度量,並取消選擇所有評估器。

Foundry 入口網站的截圖顯示代理人的遊樂場,已選中指標。