自動化測試與代理評估

隨著 AI 代理在業務流程中扮演關鍵角色，可靠且可重複的測試需求變得至關重要。 Agent 評估可讓您產生測試，模擬真實世界案例。這些測驗比手動、逐案測驗更快涵蓋更多問題和對話。接著，你可以根據代理人能取得的資訊，衡量客服互動中回答的準確性、相關性與品質。透過測試集的結果，您可以優化客服人員的行為，並驗證您的客服人員是否符合您的業務與品質要求。

為什麼要使用自動化測試？

代理評估提供自動化且結構化的測試。它有助於及早發現問題，降低錯誤答案的風險，並隨著代理角色的演進維持品質。此流程為代理測試帶來自動化且可重複的品質保證。它確保代理人符合您企業的準確性與可靠性標準，並提供透明度，了解其表現狀況。與使用測試聊天進行測試相比，這有不同的優勢。

你可以透過Copilot Studio介面執行評估並查看結果，無論是透過Power Platform REST API，或是透過在工具、流程中添加動作，或Power Automate。

代理評估衡量的是正確性與效能，而非 AI 倫理或安全問題。代理人可能通過所有評估測試，但仍會對問題做出不恰當的回答。客戶仍應使用負責任的 AI 評論與內容安全過濾器;評價並不能取代那些評論和篩選。

政府社群雲的限制

政府社群雲（GCC）環境中的代理評估有以下限制：

Maker 無法將使用者設定檔加入他們的測試集。不過，創作者仍然可以在沒有用戶資料的情況下進行評估。
製造商無法使用相似度測試方法來評估。其他所有測試方法皆可使用。

代理人評估的運作方式

Copilot Studio 對每個代理人的評估使用測試個案。測試案例是一個模擬使用者與代理互動方式的單一互動。互動可以是單一問題，也可以是整段對話。

測試案例也可以包含你期望代理人回應的答案。例如：

問題是：你的營業時間是幾點？
預期的回應是：我們週一至週五營業時間為上午9點至下午5點。

透過使用代理評估，你可以產生、匯入或手動撰寫一組測試案例。這組測試案例稱為 測試集。測試集可以讓你：

同時執行多個涵蓋廣泛能力的測試案例，而不是一次只問客服人員一個問題。
用一個易於理解的綜合分數分析你的代理人表現，並聚焦於個別測試案例。
用同一套測試集測試代理的變更，這樣你就有一個客觀的標準來衡量和比較效能變化。
快速建立新測試集或修改現有測試集，以因應代理能力或需求變化。

每個測試組都能同時使用多種測試方法評估你的代理。

您也可以選擇使用者設定檔做為模擬使用者。代理程式可能被設定為以不同方式回應不同使用者，或以不同方式允許存取資源。

當你選擇測試集並執行代理人評估時，Copilot Studio會傳送測試案例中的問題，記錄代理人的回應，並將這些回應與預期的回應或品質標準做比較，並為每個測試案例分配分數。你也可以查看每個測試案例的詳細資料、逐字稿和活動地圖，以及你的代理程式用來建立回應的資源。

制定全面的評估策略

在進行評估前，先定義代理人的成功標準，並決定哪些情境對你的業務成果最為重要。清晰的策略能幫助你選擇合適的測試方法、優先處理高影響力的測試案例，並以正確的情境解讀結果。

使用架構代理解決方案：評估框架將業務目標映射到可衡量的評估維度與評分方法。
運用設計與實務化代理評估，建立可重複的評估流程，支持持續的品質改進。

將評估整合進自動化流程

代理評估支援自動化，讓創作者能在無需人工介入的情況下執行評估。透過使用 REST API 或 Power Platform 連接器，您可以程式化觸發評估執行，並將測試整合到自動化工作流程中，如持續整合與持續部署（CI/CD）管線。此方法讓您能大規模執行測試集，並在變更導入時驗證代理行為，無需在 Copilot Studio 手動執行。

測試聊天與客服人員評估

每種測試方法都能讓您對經紀人的特質與行為有不同的洞察：

測試聊天：

一次只能接收一個問題並作出回應。重複做同樣的測試很難。
允許你測試包含多個訊息的完整會話。
允許您使用聊天介面與 Agent 互動。

代理人評估：

透過使用測試集，可以同時建立並執行多個測試案例。你可以用同一套測試集重複測試。
每個測試案例可以測試一個問題和一個回應，或是每個測試案例測試一次對話。不過，你對對話的控制力比使用測試聊天時還要少。
選擇不同的使用者設定檔來模擬不同使用者，而不必親自完成互動。

測試 Agent 時，請同時使用測試聊天和 Agent 評估來全面了解 Agent 的狀況。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-14