單一回應評估一次只測試 Agent 對一個無關問題的回應,而不是對完整交談的回應。 例如,客服人員的單一回應評估會問「 你的工作時間是幾點?」,記錄該客服對該問題的回答,接著以新問題開始,問 我如何找到我的訂單紀錄?
單一回應評估很適合當你想測試客服如何回答特定問題、呼叫哪些功能,以及回答時使用的精確措辭時。 你也可以執行 對話評估,讓你能評估客服人員在較長時間互動中的行為。
評估使用 測試集。 單一回應評估的測試集包含最多100個 測試案例。 當你執行代理評估時,你會選擇一個測試集,Copilot Studio 會將該測試集裡的所有測試案例都針對你的代理執行。
你可以手動在測試集內建立測試案例,或使用試算表匯入,或利用 AI 根據客服設計與資源生成訊息。 接著你可以選擇如何衡量代理人在測試集內每個測試案例回應的品質。
欲了解更多代理人評估的運作方式,請參閱 《關於代理人評估》。
欲了解如何編輯現有測試集,請參閱 「變更測試集細節」。
這很重要
測試結果可在 Copilot Studio 上取得 89 天。 若要儲存測試結果較長時間,請匯 出 結果為 CSV 檔案。
建立新的測試集
前往你經紀人的 評估 頁面。
選擇 新評估,然後選擇 單一回應。
選擇你想用來建立測試集的方法。 一個測試集最多可包含 100 個測試案例。
- 快速題目集讓Copilot Studio根據代理的描述、指示和能力自動建立測試案例。 此選項產生 10 題,用於執行小型快速評估或開始建立較大的測驗集。
- 完整題目集, Copilot Studio 可使用知識來源或主題產生測試案例,並選擇要產生的題目數量。
-
利用你的測試聊天對話 ,自動填入你在 測試聊天中提供的問題。 此方法使用最新測試聊天室的題目。 你也可以在測試聊天中使用評估
按鈕開始評估。
- 從 檔案 中匯入測試案例時,方法是將檔案拖曳至指定區域 ,選擇瀏覽 以上傳檔案,或選擇其他上傳選項之一。
- 或者,自己寫一些題目 ,手動建立一個測驗集。 請依照步驟 編輯測試集 以新增和編輯測試案例。
- 在 Agent 的分析中使用根據主題的生產資料。
在名稱底下,輸入測試組的名稱。
更改或新增你想使用的 測試方法 :
- 新增一種方法:
- 選擇 新增測試方法。
- 選擇所有你想測試的方法,然後選擇 確定。
- 有些方法需要及格分數。 通過分數決定什麼樣的分數才算通過或失敗。 設定好分數,然後選擇 確定。
- 有些方法需要為每個測試案例加入預期回應或關鍵字。 欲了解更多資訊,請參閱 選擇評估方法
- 選擇一個現有的測試方法來 編輯或刪除。
測試方法 措施 測試集類型 評分 組態 一般品質 根據特定特質,測試案例的回應有多好 單一回應或對話 滿分100% None 比較意義 測試案例答案的意義與預期答案的匹配程度 單一回應 滿分100% 及格分數,預期答案 能力使用 測試案例是否使用了全部或任何預期的資源 單一回應 通過/不通過 預期能力 關鍵字匹配 測試案例是否使用全部或任何預期的關鍵字或片語 單一回應或對話 通過/不通過 預期關鍵字或片語 文字相似性 測試案例答案的文本與預期答案的吻合程度 單一回應 滿分100% 及格分數,預期答案 完全相符 測試案例的答案是否完全符合預期答案 單一回應 通過/不通過 預期答案 - 新增一種方法:
編輯測試案例的細節。 除了 一般品質外,所有測試方法都要求預期答案或關鍵字。 欲了解更多關於編輯測試案例的資訊,請參閱 修改測試集。
選擇 使用者設定檔,然後選擇或新增你想用於此測試組的帳號,或繼續進行不驗證。 評估在測試期間利用此帳號連結知識來源與工具。 若選擇與使用連接器認證的帳號不同的帳號進行評估,使用連接器或工具的代理程式將失敗。 關於新增與管理使用者設定檔的資訊,請參閱 管理使用者設定檔與連線。
備註
自動化測試則是透過所選測試帳號的驗證。 如果您的代理人擁有需要特定認證的知識來源或人脈,請選擇適合的帳號進行測試。 當 Copilot Studio 產生測試案例時,會利用連接帳號的認證憑證來存取你客服人員的知識來源和工具。 產生的測試案例可能包含連接帳號可存取的敏感資料。 任何有代理存取權的製作者也能查看與該代理相關的測試集。
選擇 「儲存 」以更新測試集,但不執行測試案例;選擇 「評估 」以立即執行測試集。
測試案例產生限制
若有一個或多個問題違反代理的內容審核設定,測試案例產生將失敗。 可能的原因包括:
- 代理人的指示或主題引導模型產生內容,系統會標記這些內容。
- 連結的知識來源包含敏感或受限內容。
- 代理人的內容審核設定過於嚴格。
要解決問題,可以嘗試不同操作,例如調整知識來源、更新指示或調整審核設定。
一個測試集最多可包含 100 個測試案例。
從知識或主題產生測試集
你可以利用代理人已有的資訊和對話來源來產生問題來測試你的代理人。 這種測試方法適合測試代理人如何使用知識來源或已有主題,但不適合測試資訊缺口。
你可以透過以下知識來源產生測試案例:
文字
Microsoft Word
Microsoft Excel
你可以使用最高 5 MB 的檔案來產生測驗題目。
要產生測試集:
在 新評量中,選擇 完整題目集。
選擇 知識 或 主題。
在知識這個欄位中,選擇您想用來產生問題的知識來源。
關於 知識 與 主題,選擇並拖曳滑桿以選擇產生的問題數量。
選擇 產生。
在名稱底下,輸入測試組的名稱。
-
- 更改或新增你想使用的 測試方法 :
編輯測試案例的細節。 所有使用方法的測試案例,除了 一般品質外,都需要預期的回應。 欲了解更多編輯資訊,請參閱 「修改測試集」。
選擇 「儲存 」以更新測試集,但不執行測試案例;選擇 「評估 」以立即執行測試集。
建立要匯入的測試集檔案
你不必直接在 Copilot Studio 建置測試案例,而是可以建立一個包含所有測試案例的試算表檔案,然後匯入以建立你的測試集。 您可以撰寫每個測試問題、確定要使用的測試方法,並指定每個問題的預期解答。 完成檔案建立後,將它儲存為 .csv 或 .txt 檔案,並匯入Copilot Studio。
這很重要
- 該文件最多可以包含 100 個問題。
- 每個問題最多可以有 1,000 個字元,包括空格。
- 檔案必須採用逗號分隔值 (CSV) 或文字格式。
若要建立匯入檔案:
開啟試算表應用程式(例如 Microsoft Excel)。 選擇「新評估」後,您可以在資料來源下下載 CSV 範本。
在第一列中依此順序新增下列標題:
- Question
- 預期的回覆
- 測試方法
在問題欄中輸入您的測試問題。 每個問題可以不超過 1,000 個字元,包括空格。
在 「測驗方法 」欄位中,請輸入以下其中一種測驗方法:
- 一般品質
- 比較意義
- 相似度
- 完全相符
- 關鍵字匹配
在預期回覆欄中輸入每個問題的預期回覆。 匯入測試組的預期回覆是選用的。 不過,您需要預期回覆來執行比對、相似性及比較含義測試案例。
將檔案儲存為 .csv 或 .txt 檔案。
依照 「建立新測試集」的步驟匯入檔案。
根據主題建立一套測試集
建立一套測試集,裡面有與真實使用者對話中的問題。 此方法使用主題 (預覽),這些主題來自您的經紀人分析資料。
主題是由使用者問題集中挑選出的問題組合,用來觸發生成式回應。 當你使用主題建立測試集時,你會根據使用者提出與該主題相關的問題來產生測試案例。
利用這些測試集針對代理人的某一領域或主題進行評估。 例如,如果你有客服專員,你可以將 帳單和付款 問題的回答品質與故障排除等其他應用情境分開追蹤。
備註
在從主題建立測試集之前,你需要在分析平台中獲得主題的存取權限。 檢視主題預覽的先決條件。
在你的代理的 分析 頁面,前往 主題 列表。
將滑鼠移到主題上,然後選擇「評估」。
你也可以選擇 「全部」 以查看更多主題,然後選擇 「評估」。
選擇 建立並開啟。
編輯測試集和案例的細節。 所有使用方法的測試案例,除了 一般品質外,都需要預期的回應。 欲了解更多編輯資訊,請參閱 「修改測試集」。
選擇 「儲存 」以更新測試集,但不執行測試案例;選擇 「評估 」以立即執行測試集。