執行評估並查看結果

進行評估並分析結果,優化您的客服人員行為,並驗證您的客服人員符合您的業務與品質要求。 你也可以多次執行測試集,並隨著優化你的代理來觀察變化。

本文說明如何透過 Copilot Studio 介面開始評估並查看結果。 你也可以使用 Power Platform API連接器 來執行評估,這些可作為工具或是 Copilot Studio 或 Power Automate 自動化流程的一部分。

Copilot Studio 的測試結果可供查詢 89 天。 若要儲存測試結果較長時間,請匯 結果為 CSV 檔案。

用測試集執行測試

建立測試集後,使用該測試集執行測試。 或者,重複使用同一組測試以隨時間和迭代比較結果。 測試可能需要幾分鐘完成。 你一次只能執行一個測試。

這很重要

使用使用者驗證的代理評估需要透過 Microsoft Copilot Studio 連接器進行存取。 如果你的管理員關閉了這個連線,你就無法用評估工具來執行測試。 欲了解更多資訊,請參閱 Copilot Studio 連接器與資料群組

  1. 前往你經紀人的 評估 頁面。

    截圖顯示當分頁選擇因螢幕尺寸壓縮時,如何選擇評估分頁。

  2. 執行以下其中一個動作來執行測試:

    • 建立編輯測試集結束後,選擇「評估」。
    • 「近期成績 」區塊,請透過以下任一步驟重跑測驗:
      • 將滑鼠移到你想評估的測試結果上,然後在評估代理人旁邊選擇▶ 「評估」再次評估測試集)。
      • 選擇測試結果以開啟,然後在評估摘要面板中選擇執行▶圖示。

    如果測試集的使用者設定檔連線故障,或測試集沒有使用者設定檔,就會顯示「 管理設定檔與連線 」對話框。 你不一定要用使用者設定檔來測試。 不過,如果你使用個人檔案,所有連線都必須正常運作。 關於修復連線的資訊,請參見 「管理使用者設定檔與連線」。

評估只需幾分鐘完成。 測試結果會即時逐行處理。 你會看到每個評估測試案例的結果在產生時依序呈現。 測試案例的即時處理讓您在評估過程中即時掌握品質趨勢與潛在失效。 如果出現問題,你可以隨時停止跑步。 當完整評估完成且總結結果準備好時,Copilot Studio 會跳出警示。

備註

你一次只能執行一個評估測試集。 請等到目前的評估完成後再進行下一次評估。

深入了解測試結果

當您使用測試集進行評估時,Copilot Studio:

  1. 使用連線的使用者帳戶模擬與 Agent 的交談,並將測試案例中的每個問題傳送給 Agent。

  2. 收集 Agent 的回覆。

  3. 衡量並分析每項回應的成效。 每個測試案例根據該測試案例的標準,會獲得通過失敗無效或錯誤等判

  4. 根據測試集的通過率失敗率指派/分數。

您可以在您代理人的評估頁面「近期結果」下看到每次測試的通過率。 若要查看更多測試組執行回合,請選取查看全部以查看更多測試組執行回合。

螢幕擷取畫面顯示先前評估的清單。

請參閱並評分測試案例的詳細分析

當你打開測試結果時,你會看到測試執行的詳細內容、測試中使用的查詢清單、客服人員的回應方式,以及 通過不通過 分數。

在列表中選擇一個測試案例,即可查看每個回應的詳細評估。 選擇 全部通過不通過 ,以依結果篩選案件。

截圖顯示完成評估中測試案例清單,篩選條件標示出來。

評估內容包括預期與實際反應、測試結果背後的理由,以及代理人用來回應的知識、主題與工具。

螢幕擷取畫面顯示測試案例的詳細結果和評估。

  1. 評估結果。 此範例展示了品質評估的結果細節。

  2. 選擇 「顯示活動地圖 」以查看您的代理人在測試案例中的輸入、決策與輸出順序。 在活動中查看對話以了解更多。

  3. 考試題目和特工回答的逐字稿。

  4. 代理人在測試中使用的資源。 選擇一個來開啟。

你可以向 Microsoft 提供關於評估結果在每個測試個案中表現的反饋。 這些回饋特別針對所選評估方法評估回應的效果,而非回答本身是否正確。 您的回饋有助於隨著時間提升評估的品質與準確性。

要評分評價,請在測試案例細節欄選擇「大拇指向上」螢幕上顯示的大拇指向上圖示,表示提交對測試案例評價的正面回饋。或「大拇指向下」螢幕上顯示的大拇指向下圖示,表示提交對測試案例評價的負面回饋。。 當回饋表單打開時,請提供更多評分細節,然後選擇 提交

同一代理的多個「製造商」可以多次執行一個評估測試集。 創作者可以使用其他製造商製作的測試集進行評估。 製作者可以看到任何測試執行的執行狀態與結果指標,但只有發起測試執行的製作者能查看代理回應與結果說明。

比較測試結果

你想測試某個版本的代理人,看看效能在變更前後的變化。 你可以使用「Comparison with 工具」來比較同一組測試集的兩次運行。

要比較,你需要至少跑同一套測試兩次。

  1. 在你的代理程式 評估 頁面,在 近期測試結果 下,打開你想用作比較基準的 測試執行紀錄

  2. 選擇「 與他人比較 」下拉選單,然後選擇你想與目前開放測試結果比較的時間和日期。

截圖顯示「比較內容」下拉選單。

測試案例 列表中,箭頭顯示哪些測試案例結果從失敗變為通過 而改善,或從通過變為失敗 而下降。

選擇一個測試案例以查看更多細節。 在 評估摘要 窗格中,你可以看到測試分數的直接對比,並顯示目前測試執行的結果。

截圖顯示兩組測試結果的比較。

匯出測試結果

你可以把測試結果匯出成 CSV 檔。 檔案列出每個測試案例的問題、預期回應(如適用)、測試方法、通過分數(如適用)、代理人的回應、測試結果及分析。

  1. 前往你經紀人的 評估 頁面。
  2. 「近期結果 」區塊,請依以下任一步驟匯出測試結果:
    • 將滑鼠移到你想匯出的測試案例上,選取三個點(...),然後選擇 匯出測試結果
    • 選擇測試案例以開啟,在評估摘要窗格中點選三個點(...),然後選擇匯出測試結果

測試結果將以 你的測試集名稱.csv 的形式下載。