產生式 AI 中的可觀察性

AI 應用生命週期需要健全的評估框架，以確保 AI 系統提供準確、相關且可靠的輸出。若缺乏嚴謹評估，AI 系統有可能產生不準確、不一致、缺乏根據或潛在有害的回應。可觀察性讓團隊能在整個開發生命週期中，從模型選擇到生產監控，衡量並提升 AI 輸出的品質與安全性。

何謂可檢視性？

AI 可觀察性指的是監控、理解並排除 AI 系統在其生命週期中的故障能力。你可以追蹤、評估，並將自動化品質閘門整合進 CI/CD 流程，並收集評估指標、日誌、追蹤和模型輸出等訊號，從而獲得效能、品質、安全與營運健康的可視化。

核心可觀察性能力

Microsoft Foundry 提供三項核心功能，協同運作，提供涵蓋 AI 應用生命週期的全面可觀察性：

Evaluation

評估者在整個開發過程中衡量 AI 回應的品質、安全性與可靠性。 Microsoft Foundry 提供內建的評估工具，包括通用品質指標（連貫性、流暢度）、RAG 專屬指標（貼地性、相關性）、安全與保衛（仇恨/不公平、暴力、受保護資料）以及代理專屬指標（工具呼叫準確度、任務完成度）等。你也可以根據你的領域需求打造客製化評估器。

關於內建評估器的完整列表，請參見內建評估器參考。

Monitoring

生產監控確保您的部署的 AI 應用程式在真實環境中能維持品質與效能。 Microsoft Foundry 與 Azure 監視器 Application Insights 整合，提供即時儀表板，追蹤營運指標、代幣消耗、延遲、錯誤率及品質分數。你可以設定當輸出未達品質門檻或產生有害內容時的警示，從而快速解決問題。

關於如何設定生產監控的細節，請參閱監控代理者儀表板。

追蹤

分散式追蹤捕捉 AI 應用的執行流程，提供對 LLM 呼叫、工具調用、代理決策及服務間相依關係的可視化。追蹤建立於 OpenTelemetry 標準，並整合 Azure 監視器 Application Insights，能除錯複雜的代理行為、識別效能瓶頸，並理解多步驟推理鏈。 Microsoft Foundry 支援針對包括 LangChain、LangGraph、OpenAI Agents SDK 及 Microsoft Agent Framework 等熱門框架的追蹤。

有關實作追蹤的指引，請參閱 Trace agent 概述。

什麼是評估者？

評估器是專門的工具，用來衡量 AI 回應在整個開發生命週期中的品質、安全性與可靠性。

關於內建評估器的完整列表，請參見內建評估器參考。

評估人員整合進 AI 生命週期的每個階段，以確保可靠性、安全性與效能。

AI 應用生命週期評估的三個階段

基本模型選取

透過比較不同模型的品質、任務表現、倫理考量及安全性，選擇合適的基礎模型。

可用工具：Microsoft Foundry 基準測試用於比較公開資料集或自有資料模型，以及 Azure AI Evaluation SDK 用於測試特定模型端點。

實際執行環境前評估

部署前，徹底測試確保您的 AI 代理或應用程式已準備好投入生產環境。此階段透過評估資料集驗證效能，識別邊緣案例，評估穩健性，並衡量任務依從性、紮實性、相關性與安全性等關鍵指標。若要建置可投入正式環境的代理，並支援多輪對話、工具呼叫與狀態管理，請參閱 Foundry Agent Service。

評估工具與方法：

使用自有資料：使用你自己的資料，透過品質、安全性或自訂評估工具來評估 AI 應用程式。使用 Foundry 入口網站評估嚮導或 Foundry SDK，然後在 Foundry 入口網站查看結果。
AI 紅隊代理：AI 紅隊代理利用 Microsoft 的 PyRIT 框架模擬複雜攻擊，在部署前識別安全與安全漏洞。最適合用於需要人為介入的流程。

實際執行環境後監視

部署後，持續監控確保您的 AI 應用在真實環境中能維持品質：

營運指標：定期衡量關鍵 AI 代理營運指標
持續評估：以抽樣速率評估生產運輸的品質與安全
預定評估：利用測試資料集進行預定品質與安全性評估以偵測系統漂移
排程紅隊測試：透過排程對抗性測試來探查安全與資安弱點
Azure 監視器警示：當輸出未達品質門檻或產生有害內容時的通知

與 Azure 監視器 Application Insights 整合後，Foundry 可觀察性儀表板提供即時的效能、安全與品質指標洞察，促進快速問題解決並維護使用者信任。

評估快速參考

目標	流程	參數、指引與樣本
如何設定追蹤？	配置分散式追蹤	追蹤概述 Trace with Agents SDK
您正在評估什麼？	識別或建置相關的評估工具	內建評估器自訂評估器 Python SDK 範例 C# SDK 範例
您應該使用哪些資料？	上傳或產生相關的資料集	選擇或建立資料集
如何進行評估？	執行評估	代理評估執行遠端雲端執行
我的模型/AI 應用表現如何？	分析結果	查看評估結果群集分析
如何改善？	分析結果並優化代理人	用叢集分析分析評估失敗。優化代理人並重新評估。檢視評估結果。

區域支援、速率限制與虛擬網路支援

要了解哪些區域支援 AI 輔助評估員、評估執行適用的速率限制，以及如何配置虛擬網路支援以進行網路隔離，請參閱區域支援、速率限制及虛擬網路支援評估。

定價

可觀察性功能如風險與安全評估，以及代理遊樂場中的評估，皆依據 our Azure 定價頁面列出的消耗量計費。

這很重要

依預設，所有 Foundry 專案都會在 Agent 遊樂場中啟用評估，並納入以使用量為基礎的計費。若要關閉 playground 評估功能，請在代理 playground 右上角選取 metrics，並取消選取所有評估工具。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-20