自動化測試與代理評估

[本文章是發行前版本文件,且隨時可能變更。]

隨著 AI 代理在業務流程中扮演關鍵角色,可靠且可重複的測試需求變得至關重要。 代理評估讓你 能產生 模擬真實世界情境的測試。 這些測驗比手動逐案測驗更快涵蓋更多題目。 接著,你可以根據代理人能取得的資訊 ,衡量 他們所問問題的準確性、相關性與品質。 透過測試 集的結果,您可以優化客服人員的行為,並驗證您的客服人員是否符合您的業務與品質要求。

這很重要

本文包含 Microsoft Copilot Studio 預覽版文件,內容可能有所變更。

預覽功能不適用於生產環境,而且功能可能受到限制。 這些功能是在正式發行前先行推出,讓您能夠搶先體驗並提供意見反應

如果您要建置生產就緒 Agent,請參閱 Microsoft Copilot Studio 概觀

為什麼要使用自動化測試?

代理評估提供自動化且結構化的測試。 它有助於及早發現問題,降低錯誤答案的風險,並隨著代理角色的演進維持品質。 此流程為代理測試帶來自動化且可重複的品質保證。 它確保代理人符合您企業的準確性與可靠性標準,並提供透明度,了解其表現狀況。 它和 用測試聊天聊天來測試有不同的優勢。

代理評估衡量的是正確性與效能,而非 AI 倫理或安全問題。 代理人可能通過所有評估測試,但仍會對問題做出不恰當的回答。 客戶仍應使用負責任的 AI 評論與內容安全過濾器;評價並不能取代那些評論和篩選。

代理人評估的運作方式

Copilot Studio 為每個客服人員評估使用一個 測試案例 。 測試案例是一個訊息或問題,模擬使用者會問你的代理。 測試案例也可以包含你 期望 代理人回應的答案。 例如:

  • 問題是:你的營業時間是幾點?

  • 預期的回應是:我們週一至週五營業時間為上午9點至下午5點。

透過使用代理評估,你可以 產生匯入手動撰寫 一組測試案例。 這組測試案例稱為 測試集。 測試集可以讓你:

  • 同時執行多個涵蓋廣泛能力的測試案例,而不是一次只問客服人員一個問題。

  • 用一個易於理解的綜合分數分析你的代理人表現,並聚焦於個別測試案例。

  • 用同一套測試集測試代理的變更,這樣你就有一個客觀的標準來衡量和比較效能變化。

  • 快速建立新測試集或修改現有測試集,以因應代理能力或需求變化。

測試集也包含你想使用的 測試方法 。 您可以根據以下標準來衡量您的代理人表現:

  • 精確匹配或關鍵字匹配:你的經紀人回答問題與你預期回應的高度吻合程度。

  • 意相似性:你的代理人的回答與你預期回應的想法或意圖相符的程度。

  • 品質:你代理人的回答在基於大型語言模型(LLM)的評估中表現如何。

你也可以選擇一個使用者設定檔作為發送問題的使用者。 代理程式可能被設定為以不同方式回應不同使用者,或以不同方式允許存取資源。

當你選擇測試集並 執行代理人評估時,Copilot Studio 會將測試案例中的問題送出,記錄代理人的回應,並將這些回應與預期的回應或品質標準做比較,並為每個測試案例分配分數。 你也可以查看每個測試案例的詳細資料、逐字稿和活動地圖,以及你的客服人員用來建立回應的資源。

測試聊天與客服評估

每種測試方法都能讓您對經紀人的特質與行為有不同的洞察:

測試聊天

  • 一次只能接收並回答一個問題。 重複做同樣的測試很難。

  • 允許你測試包含多個訊息的完整會話。

  • 讓你能透過聊天介面與你的客服人員互動。

代理人評估:

  • 可以同時建立並執行多個測試案例。 你可以用同一套測試來重複測試。

  • 每個測試案例只能測試一個問題和一個回答。 它不會測試完整的對話會談。

  • 選擇不同的使用者設定檔來模擬不同使用者,而不必親自完成互動。

當你測試經紀人時,請同時使用測試聊天和經紀人評估,以獲得你經紀人的完整狀況。