隨著 AI 代理在業務流程中扮演關鍵角色,可靠且可重複的測試需求變得至關重要。 Agent 評估可讓您產生測試,模擬真實世界案例。 這些測驗比手動、逐案測驗更快涵蓋更多問題和對話。 接著,你可以根據代理人能取得的資訊 ,衡量 客服互動中回答的準確性、相關性與品質。 透過測試 集的結果,您可以優化客服人員的行為,並驗證您的客服人員是否符合您的業務與品質要求。
為什麼要使用自動化測試?
代理評估提供自動化且結構化的測試。 它有助於及早發現問題,降低錯誤答案的風險,並隨著代理角色的演進維持品質。 此流程為代理測試帶來自動化且可重複的品質保證。 它確保代理人符合您企業的準確性與可靠性標準,並提供透明度,了解其表現狀況。 與使用測試聊天進行測試相比,這有不同的優勢。
你可以透過Copilot Studio介面執行評估並查看結果,無論是透過Power Platform REST API,或是透過在工具、流程中添加動作,或Power Automate。
代理評估衡量的是正確性與效能,而非 AI 倫理或安全問題。 代理人可能通過所有評估測試,但仍會對問題做出不恰當的回答。 客戶仍應使用負責任的 AI 評論與內容安全過濾器;評價並不能取代那些評論和篩選。
政府社群雲的限制
政府社群雲(GCC)環境中的代理評估有以下限制:
代理人評估的運作方式
Copilot Studio 對每個代理人的評估使用測試個案。 測試案例是一個模擬使用者與代理互動方式的單一互動。 互動可以是單一問題,也可以是整段對話。
測試案例也可以包含你 期望 代理人回應的答案。 例如:
問題是:你的營業時間是幾點?
預期的回應是:我們週一至週五營業時間為上午9點至下午5點。
透過使用代理評估,你可以 產生、 匯入或 手動撰寫 一組測試案例。 這組測試案例稱為 測試集。 測試集可以讓你:
同時執行多個涵蓋廣泛能力的測試案例,而不是一次只問客服人員一個問題。
用一個易於理解的綜合分數分析你的代理人表現,並聚焦於個別測試案例。
用同一套測試集測試代理的變更,這樣你就有一個客觀的標準來衡量和比較效能變化。
快速建立新測試集或修改現有測試集,以因應代理能力或需求變化。
每個測試組都能同時使用多種 測試方法 評估你的代理。
您也可以選擇使用者設定檔做為模擬使用者。 代理程式可能被設定為以不同方式回應不同使用者,或以不同方式允許存取資源。
當你選擇測試集並執行代理人評估時,Copilot Studio會傳送測試案例中的問題,記錄代理人的回應,並將這些回應與預期的回應或品質標準做比較,並為每個測試案例分配分數。 你也可以查看每個測試案例的詳細資料、逐字稿和活動地圖,以及你的代理程式用來建立回應的資源。
制定全面的評估策略
在進行評估前,先定義代理人的成功標準,並決定哪些情境對你的業務成果最為重要。 清晰的策略能幫助你選擇合適的測試方法、優先處理高影響力的測試案例,並以正確的情境解讀結果。
使用 架構代理解決方案:評估框架 將業務目標映射到可衡量的評估維度與評分方法。
運用 設計與實務化代理評估 ,建立可重複的評估流程,支持持續的品質改進。
將評估整合進自動化流程
代理評估支援自動化,讓創作者能在無需人工介入的情況下執行評估。 透過使用 REST API 或 Power Platform 連接器,您可以程式化觸發評估執行,並將測試整合到自動化工作流程中,如持續整合與持續部署(CI/CD)管線。 此方法讓您能大規模執行測試集,並在變更導入時驗證代理行為,無需在 Copilot Studio 手動執行。
測試聊天與客服人員評估
每種測試方法都能讓您對經紀人的特質與行為有不同的洞察:
測試聊天:
一次只能接收一個問題並作出回應。 重複做同樣的測試很難。
允許你測試包含多個訊息的完整會話。
允許您使用聊天介面與 Agent 互動。
代理人評估:
透過使用測試集,可以同時建立並執行多個測試案例。 你可以用同一套測試集重複測試。
每個測試案例可以測試一個問題和一個回應,或是每個測試案例測試一次對話。 不過,你對對話的控制力比使用測試聊天時還要少。
選擇不同的使用者設定檔來模擬不同使用者,而不必親自完成互動。
測試 Agent 時,請同時使用測試聊天和 Agent 評估來全面了解 Agent 的狀況。