自動化測試與代理評估

隨著 AI 代理在業務流程中扮演關鍵角色,可靠且可重複的測試需求變得至關重要。 Agent 評估可讓您產生測試,模擬真實世界案例。 這些測驗比手動、逐案測驗更快涵蓋更多問題和對話。 接著,你可以根據代理人能取得的資訊 ,衡量 客服互動中回答的準確性、相關性與品質。 透過測試 集的結果,您可以優化客服人員的行為,並驗證您的客服人員是否符合您的業務與品質要求。

為什麼要使用自動化測試?

代理評估提供自動化且結構化的測試。 它有助於及早發現問題,降低錯誤答案的風險,並隨著代理角色的演進維持品質。 此流程為代理測試帶來自動化且可重複的品質保證。 它確保代理人符合您企業的準確性與可靠性標準,並提供透明度,了解其表現狀況。 與使用測試聊天進行測試相比,這有不同的優勢。

你可以透過Copilot Studio介面執行評估並查看結果,無論是透過Power Platform REST API,或是透過在工具、流程中添加動作,或Power Automate

代理評估衡量的是正確性與效能,而非 AI 倫理或安全問題。 代理人可能通過所有評估測試,但仍會對問題做出不恰當的回答。 客戶仍應使用負責任的 AI 評論與內容安全過濾器;評價並不能取代那些評論和篩選。

政府社群雲的限制

政府社群雲(GCC)環境中的代理評估有以下限制:

  • Maker 無法將 使用者設定檔 加入他們的測試集。 不過,創作者仍然可以在沒有用戶資料的情況下進行評估。

  • 製造商無法使用 相似度測試方法 來評估。 其他所有測試方法皆可使用。

代理人評估的運作方式

Copilot Studio 對每個代理人的評估使用測試個案。 測試案例是一個模擬使用者與代理互動方式的單一互動。 互動可以是單一問題,也可以是整段對話。

測試案例也可以包含你 期望 代理人回應的答案。 例如:

  • 問題是:你的營業時間是幾點?

  • 預期的回應是:我們週一至週五營業時間為上午9點至下午5點。

透過使用代理評估,你可以 產生匯入手動撰寫 一組測試案例。 這組測試案例稱為 測試集。 測試集可以讓你:

  • 同時執行多個涵蓋廣泛能力的測試案例,而不是一次只問客服人員一個問題。

  • 用一個易於理解的綜合分數分析你的代理人表現,並聚焦於個別測試案例。

  • 用同一套測試集測試代理的變更,這樣你就有一個客觀的標準來衡量和比較效能變化。

  • 快速建立新測試集或修改現有測試集,以因應代理能力或需求變化。

每個測試組都能同時使用多種 測試方法 評估你的代理。

您也可以選擇使用者設定檔做為模擬使用者。 代理程式可能被設定為以不同方式回應不同使用者,或以不同方式允許存取資源。

當你選擇測試集並執行代理人評估時,Copilot Studio會傳送測試案例中的問題,記錄代理人的回應,並將這些回應與預期的回應或品質標準做比較,並為每個測試案例分配分數。 你也可以查看每個測試案例的詳細資料、逐字稿和活動地圖,以及你的代理程式用來建立回應的資源。

制定全面的評估策略

在進行評估前,先定義代理人的成功標準,並決定哪些情境對你的業務成果最為重要。 清晰的策略能幫助你選擇合適的測試方法、優先處理高影響力的測試案例,並以正確的情境解讀結果。

將評估整合進自動化流程

代理評估支援自動化,讓創作者能在無需人工介入的情況下執行評估。 透過使用 REST APIPower Platform 連接器,您可以程式化觸發評估執行,並將測試整合到自動化工作流程中,如持續整合與持續部署(CI/CD)管線。 此方法讓您能大規模執行測試集,並在變更導入時驗證代理行為,無需在 Copilot Studio 手動執行。

測試聊天與客服人員評估

每種測試方法都能讓您對經紀人的特質與行為有不同的洞察:

測試聊天

  • 一次只能接收一個問題並作出回應。 重複做同樣的測試很難。

  • 允許你測試包含多個訊息的完整會話。

  • 允許您使用聊天介面與 Agent 互動。

代理人評估:

  • 透過使用測試集,可以同時建立並執行多個測試案例。 你可以用同一套測試集重複測試。

  • 每個測試案例可以測試一個問題和一個回應,或是每個測試案例測試一次對話。 不過,你對對話的控制力比使用測試聊天時還要少。

  • 選擇不同的使用者設定檔來模擬不同使用者,而不必親自完成互動。

測試 Agent 時,請同時使用測試聊天和 Agent 評估來全面了解 Agent 的狀況。