自動化測試與代理評估

[本文章是發行前版本文件，且隨時可能變更。]

隨著 AI 代理在業務流程中扮演關鍵角色，可靠且可重複的測試需求變得至關重要。代理評估讓你能產生模擬真實世界情境的測試。這些測驗比手動逐案測驗更快涵蓋更多題目。接著，你可以根據代理人能取得的資訊，衡量他們所問問題的準確性、相關性與品質。透過測試集的結果，您可以優化客服人員的行為，並驗證您的客服人員是否符合您的業務與品質要求。

這很重要

本文包含 Microsoft Copilot Studio 預覽版文件，內容可能有所變更。

預覽功能不適用於生產環境，而且功能可能受到限制。這些功能是在正式發行前先行推出，讓您能夠搶先體驗並提供意見反應。

如果您要建置生產就緒 Agent，請參閱 Microsoft Copilot Studio 概觀。

為什麼要使用自動化測試？

代理評估提供自動化且結構化的測試。它有助於及早發現問題，降低錯誤答案的風險，並隨著代理角色的演進維持品質。此流程為代理測試帶來自動化且可重複的品質保證。它確保代理人符合您企業的準確性與可靠性標準，並提供透明度，了解其表現狀況。它和用測試聊天聊天來測試有不同的優勢。

代理評估衡量的是正確性與效能，而非 AI 倫理或安全問題。代理人可能通過所有評估測試，但仍會對問題做出不恰當的回答。客戶仍應使用負責任的 AI 評論與內容安全過濾器;評價並不能取代那些評論和篩選。

代理人評估的運作方式

Copilot Studio 為每個客服人員評估使用一個 測試案例 。測試案例是一個訊息或問題，模擬使用者會問你的代理。測試案例也可以包含你期望代理人回應的答案。例如：

問題是：你的營業時間是幾點？
預期的回應是：我們週一至週五營業時間為上午9點至下午5點。

透過使用代理評估，你可以產生、匯入或手動撰寫一組測試案例。這組測試案例稱為 測試集。測試集可以讓你：

同時執行多個涵蓋廣泛能力的測試案例，而不是一次只問客服人員一個問題。
用一個易於理解的綜合分數分析你的代理人表現，並聚焦於個別測試案例。
用同一套測試集測試代理的變更，這樣你就有一個客觀的標準來衡量和比較效能變化。
快速建立新測試集或修改現有測試集，以因應代理能力或需求變化。

測試集也包含你想使用的測試方法。您可以根據以下標準來衡量您的代理人表現：

精確匹配或關鍵字匹配：你的經紀人回答問題與你預期回應的高度吻合程度。
語意相似性：你的代理人的回答與你預期回應的想法或意圖相符的程度。
品質：你代理人的回答在基於大型語言模型（LLM）的評估中表現如何。

你也可以選擇一個使用者設定檔作為發送問題的使用者。代理程式可能被設定為以不同方式回應不同使用者，或以不同方式允許存取資源。

當你選擇測試集並執行代理人評估時，Copilot Studio 會將測試案例中的問題送出，記錄代理人的回應，並將這些回應與預期的回應或品質標準做比較，並為每個測試案例分配分數。你也可以查看每個測試案例的詳細資料、逐字稿和活動地圖，以及你的客服人員用來建立回應的資源。

測試聊天與客服評估

每種測試方法都能讓您對經紀人的特質與行為有不同的洞察：

測試聊天：

一次只能接收並回答一個問題。重複做同樣的測試很難。
允許你測試包含多個訊息的完整會話。
讓你能透過聊天介面與你的客服人員互動。

代理人評估：

可以同時建立並執行多個測試案例。你可以用同一套測試來重複測試。
每個測試案例只能測試一個問題和一個回答。它不會測試完整的對話會談。
選擇不同的使用者設定檔來模擬不同使用者，而不必親自完成互動。

當你測試經紀人時，請同時使用測試聊天和經紀人評估，以獲得你經紀人的完整狀況。

反饋

呢頁幫到你嗎？

Last updated on 2026-01-15

分享方式

自動化測試與代理評估

為什麼要使用自動化測試？

代理人評估的運作方式

測試聊天與客服評估

反饋

其他資源