共用方式為


建立或修改測試集來評估你的代理人

[本文章是發行前版本文件,且隨時可能變更。]

一個 測試集 包含最多 100 個 測試案例。 當你執行代理評估時,你會選擇一個測試集,Copilot Studio 會將該測試集裡的所有測試案例都針對你的代理執行。

你可以手動在測試集內建立測試案例,或使用試算表匯入,或利用 AI 根據客服設計與資源生成訊息。 接著你可以選擇如何衡量代理人在測試集內每個測試案例回應的品質。

欲了解更多代理人評估的運作方式,請參閱 《關於代理人評估》。

欲了解如何編輯現有測試集,請參閱 「變更測試集細節」。

這很重要

Copilot Studio 的測試結果可查閱 89 天。 若要儲存測試結果較長時間,請匯 結果為 CSV 檔案。

建立新的測試集

  1. 前往你經紀人的 評估 頁面。

截圖顯示當分頁選擇因螢幕尺寸壓縮時,如何選擇評估分頁。

  1. 選擇 新評估

    顯示評估頁面上建立新測試按鈕的截圖。

  2. 新評估 頁面,選擇你想用來建立測試集的方法。 一個測試集最多可包含 100 個測試案例。

    • 快速問題設定為讓 Copilot Studio 根據你客服人員的描述、指示和能力自動建立測試案例。 此選項產生 10 題,用於執行小型快速評估或開始建立較大的測驗集。
    • 完整問題組,讓 Copilot Studio 利用你的客服人員的知識來源或主題生成測試案例,並選擇產生的問題數量。
    • 利用你的測試聊天對話 ,自動填入你在 測試聊天中提供的問題。 此方法使用最新測試聊天室的題目。 你也可以在測試聊天中使用評估 按鈕開始評估。 測試聊天中新增測試按鈕的截圖。
    • 檔案 中匯入測試案例時,方法是將檔案拖曳至指定區域 ,選擇瀏覽 以上傳檔案,或選擇其他上傳選項之一。
    • 或者,自己寫一些題目 ,手動建立一個測驗集。 請依照步驟 編輯測試集 以新增和編輯測試案例。
    • 使用基於經紀人分析主題的 製作數據 截圖顯示某主題在主題列表中的「評估」選項。
  3. 編輯測試案例的細節。 所有使用方法的測試案例,除了 一般品質外,都需要預期的回應。 欲了解更多編輯資訊,請參閱 「修改測試集」。

  4. 名稱底下,輸入測試組的名稱。

  5. 更改或新增你想使用的 測試方法

    • 新增一種方法:
      1. 選擇 新增測試方法
      2. 選擇所有你想測試的方法,然後選擇 確定。 你可以加入多種方法。
      3. 有些方法可以先設定通過分數,然後選擇 確定。 通過分數決定了通過或失敗的分數。
      4. 有些方法需要為每個測試案例加入預期回應或關鍵字。 欲了解更多資訊,請參閱 選擇評估方法
    • 選擇一個現有的測試方法來 編輯或刪除
    測試方法 措施 評分 組態
    一般品質 根據特定特質,測試案例的答案有多好 滿分100% None
    比較意義 測試案例答案的意義與預期答案的匹配程度 滿分100% 及格分數,預期答案
    能力使用 測試案例是否使用了預期的資源 通過/不通過 預期能力
    關鍵字匹配 測試案例是否使用全部或任何預期的關鍵字或片語 通過/不通過 預期關鍵字或片語
    文字相似性 測試案例答案的文本與預期答案的吻合程度 滿分100% 及格分數,預期答案
    完全相符 測試案例的答案是否完全符合預期答案 通過/不通過 預期答案
  6. 選擇 使用者設定檔,然後選擇或新增你想用於此測試集的帳號,或是繼續進行不驗證。 評估在測試期間利用此帳號連結知識來源與工具。 關於新增與管理使用者設定檔的資訊,請參閱 管理使用者設定檔與連線

    備註

    自動化測試則是透過所選測試帳號的驗證。 如果您的代理人擁有需要特定認證的知識來源或人脈,請選擇適合的帳號進行測試。 當 Copilot Studio 產生測試案例時,會利用連接帳號的認證憑證來存取你座席的知識來源和工具。 產生的測試案例或結果可能包含相關帳號可存取的敏感資訊,且這些資訊對所有能存取測試集的創作者皆可見。

  7. 選擇 「儲存 」以更新測試集,但不執行測試案例;選擇 「評估 」以立即執行測試集。

測試案例產生限制

若有一個或多個問題違反代理的內容審核設定,測試案例產生將失敗。 可能的原因包括:

  • 代理人的指示或主題引導模型產生內容,系統會標記這些內容。
  • 連結的知識來源包含敏感或受限內容。
  • 代理人的內容審核設定過於嚴格。

要解決問題,可以嘗試不同操作,例如調整知識來源、更新指示或調整審核設定。

一個測試集最多可包含 100 個測試案例。

從知識或主題產生測試集

你可以利用代理人已有的資訊和對話來源來產生問題來測試你的代理人。 這種測試方法適合測試代理人如何運用已有的知識和主題,但不適合用來測試資訊缺口。

你可以透過以下知識來源產生測試案例:

  • 文字

  • Microsoft Word

  • Microsoft Excel

你可以使用最大 293 KB 的檔案來產生測驗題目。

要產生測試集:

  1. 新評量中,選擇 完整題目集

  2. 選擇 知識主題

    • 知識對使用 生成式協調的代理來說效果最佳。 此方法透過使用代理人的知識來源來產生問題。
    • Topic 最適合使用 經典編排的代理。 這種方法會利用你代理人的主題來產生問題。
  3. 對於 知識,選擇你想納入題目產生的知識來源。

截圖顯示測試案例產生中可包含的知識來源選擇過程。

  1. 關於 知識主題,選擇並拖曳滑桿以選擇產生的問題數量。

截圖顯示用來選擇產生題目數量的滑桿。

  1. 選擇產生

  2. 名稱底下,輸入測試組的名稱。

    1. 更改或新增你想使用的 測試方法
    • 新增一種方法:
      1. 選擇 新增測試方法
      2. 選擇所有你想測試的方法,然後選擇 確定。 你可以加入多種方法。
      3. 有些方法可以先設定通過分數,然後選擇 確定。 通過分數決定了通過或失敗的分數。
      4. 有些方法需要為每個測試案例加入預期回應或關鍵字。 欲了解更多資訊,請參閱 選擇評估方法
    • 選擇一個現有的測試方法來 編輯或刪除
  3. 編輯測試案例的細節。 所有使用方法的測試案例,除了 一般品質外,都需要預期的回應。 欲了解更多編輯資訊,請參閱 「修改測試集」。

  4. 選擇 「儲存 」以更新測試集,但不執行測試案例;選擇 「評估 」以立即執行測試集。

建立一個測試集檔案來匯入

您可以不直接在 Copilot Studio 建置測試案例,而是建立包含所有測試案例的試算表檔案,然後匯入以建立測試組。 您可以撰寫每個測試問題、確定要使用的測試方法,並指定每個問題的預期解答。 完成檔案建立後,將其儲存為 .csv 或 .txt 檔案,並將其匯入 Copilot Studio。

這很重要

  • 該文件最多可以包含 100 個問題。
  • 每個問題最多可以有 1,000 個字元,包括空格。
  • 檔案必須採用逗號分隔值 (CSV) 或文字格式。

若要建立匯入檔案:

  1. 開啟試算表應用程式 (例如 Microsoft Excel)。

  2. 在第一列中依此順序新增下列標題:

    • Question
    • 預期的回覆
    • 測試方法
  3. 問題欄中輸入您的測試問題。 每個問題可以不超過 1,000 個字元,包括空格。

  4. 「測驗方法 」欄位中,請輸入以下其中一種測驗方法:

    • 一般品質
    • 比較含義
    • 相似度
    • 完全相符
    • 關鍵字匹配
  5. 預期回覆欄中輸入每個問題的預期回覆。 匯入測試組的預期回覆是選用的。 不過,您需要預期回覆來執行比對、相似性及比較含義測試案例。

  6. 將檔案儲存為 .csv 或 .txt 檔案。

  7. 依照 「建立新測試集」的步驟匯入檔案。

根據主題建立一套測試集

建立一套測試集,裡面有與真實使用者對話中的問題。 此方法使用主題 (預覽),這些主題來自您的經紀人分析資料。

主題是由使用者問題集中挑選出的問題組合,用來觸發生成式回應。 當你使用主題建立測試集時,你會根據使用者提出與該主題相關的問題來產生測試案例。

利用這些測試集針對代理人的某一領域或主題進行評估。 例如,如果你有客服專員,你可以將 帳單和付款 問題的回答品質與故障排除等其他應用情境分開追蹤。

備註

在從主題建立測試集之前,你需要在分析中取得主題。 複習主題(預覽)的先決條件

  1. 在你經紀人的 分析 頁面,前往 主題 列表。

  2. 將滑鼠移到主題上,然後選擇「評估」。

    截圖顯示主題列表中的「評估」選項。

    你也可以選擇 「全部」 以查看更多主題,然後選擇 「評估」。

  3. 選擇 建立並開啟

  4. 編輯測試集和案例的細節。 所有使用方法的測試案例,除了 一般品質外,都需要預期的回應。 欲了解更多編輯資訊,請參閱 「修改測試集」。

  5. 選擇 「儲存 」以更新測試集,但不執行測試案例;選擇 「評估 」以立即執行測試集。