選擇評估方法

當你建立測試集時，可以從不同的測試方法中選擇來評估代理人的回應。每種測驗方法都有其優勢，適合不同類型的評估。

測試方法	量值	測試集類型	計分	組態
一般品質	根據特定特質，測試案例的回應有多好	單一回應或對話	滿分100%	沒有
比較意義	測試案例答案的意義與預期答案的匹配程度	單一回應	滿分100%	及格分數，預期答案
能力使用	測試案例是否使用了全部或任何預期的資源	單一回應	通過/不通過	預期能力
關鍵字匹配	測試案例是否使用全部或任何預期的關鍵字或片語	單一回應或對話	通過/不通過	預期關鍵字或片語
文字相似性	測試案例答案的文本與預期答案的吻合程度	單一回應	滿分100%	及格分數，預期答案
完全相符	測試案例的答案是否完全符合預期答案	單一回應	通過/不通過	預期答案
自定義	測試案例的回應是否符合你定義的標準或期望。	單一回應或對話	通過/不通過（通過定義的標籤標準）	名稱、評估指示、標籤

新增測試方法

建立或編輯測試集時，請選擇新增測試方法。
選擇所有你想測試的方法，然後選擇確定。你可以加入多種方法。
1. 有些方法需要及格分數。通過分數決定什麼樣的分數才算通過或失敗。設定好分數，然後選擇確定。
2. 有些測試方法需要更多標準。
選擇 「儲存 」以將你的變更儲存到測試集。

選擇現有的測試方法來編輯該方法的標準，或刪除該方法。

一般品質

可用於單一回應和對話測試集。 整體品質 有助於你判斷經紀人的回應是否符合你的標準。它使用大型語言模型（LLM）來評估代理人回答使用者問題的效率。

當沒有確切答案時，整體品質尤其有幫助。它提供一種靈活且可擴展的方式，根據檢索的文件與對話流程來評估回應。

它使用這些關鍵標準，並以一致的提示來指導評分：

相關性：Agent 的回覆在多大程度上解答了問題。例如，客服專員的回應是否停留在主題上並直接回答問題？
契合性：Agent 的回覆在多大程度上根據提供的內容進行解答。例如，Agent 的回覆是否參考或依賴內容中提供的資訊 (而不是引入不相關或不支援的資訊)？
完整性：Agent 的回覆在多大程度上提供了所有必要的資訊。例如，Agent 的回覆是否涵蓋問題的所有層面並提供充足的詳細資料？
回避性：Agent 是否已嘗試解答問題。

要被視為高品質，回應必須符合所有這些關鍵標準。若未達成某項標準，該回應將被標記為需改進。這種評分方法確保只有完整且充分支援的回覆才能獲得最高分。相比之下，不完整或缺乏支持證據的答案獲得較低的分數。

新增或編輯測試方法時，請選擇一般品質。所有測試集預設皆以此方法開始。

你不需要在測試案例中加入預期答案來完成一般品質評估。

備註

減少代理人的知識來源數量，並不保證能提升代理人評估中的整體品質評分。此限制存在是因為擷取的知識（模型認為與特定測試案例相關的知識）可能過大。

比較意義

適用於單一回應測試組。 比較含義評估 Agent 的解答在多大程度上反映了預期回覆的本意。它不專注於精確措辭，而是利用意圖相似性，也就是比較詞語背後的想法與意義，來判斷回應是否符合你的預期。

就像一般品質一樣，比較意義在沒有確切解答時特別有用。它提供一種靈活且可擴展的方式，根據檢索的文件與對話流程來評估回應。

您可以設定通過分數閾值來確定解答的通過分數。預設及格分數為50分。當解答可以用不同的正確方式表述，但整體含義或意圖仍需表達出來時，比較含義測試方法很有用。

在新增或編輯測試方法時，請選擇「比較意義」。
為此方法設定通過分數。
加入預期答案。任何沒有預期答案的測試案例，都會對此測試方法產生無效結果。
1. 選擇一個測試案例。
2. 加入你預期的答案。
3. 選擇 「申請 」以儲存預期答案。
4. 使用此方法對所有你想測試的測試案例重複此操作。

工具使用

適用於單一回應測試組。 功能使用會測試 Agent 是否已使用特定工具或主題來產生解答。如果符合，那就通過了。如果沒有，它就會失敗。

新增或編輯測試方法時，請選擇工具使用。
加入預期的工具或主題。任何沒有預期答案的測試案例，都會對此測試方法產生無效結果。
1. 選擇一個測試案例。若要為所有測試案例新增相同的預期工具與主題，請在工具使用欄位標題中選擇編輯圖示。
2. 在 編輯測試案例 欄格中，選擇你預期代理人會用於該測試案例的工具。
3. 請選擇 [確定]。
4. 按套用以儲存變更。
5. 對你想測試的工具使用情況重複這個步驟。

關鍵字匹配

可用於單一回應和對話測試集。 關鍵字匹配 會檢查客服的回答是否包含你所定義的預期回應中部分或全部詞彙或片語。若是如此，則通過。如果沒有，它就會失敗。

您可以選擇通過測試所需的是任何關鍵字還是所有關鍵字。選擇任意表示只要至少有一個單字或片語匹配，測試案例即通過。選擇全部表示所有預期的單字或片語必須匹配，測試案例才會通過。

新增或編輯測試方法時，請選擇關鍵字匹配。
選擇測試案例是否需要「任何」或 「全部 」關鍵字來匹配。
加入預期的關鍵字。任何沒有預期關鍵字的測試案例，對此測試方法產生無效結果。
1. 選擇一個測試案例。
2. 在 編輯測試案例 面板中，加入你預期該案例答案會有的關鍵字或片語。
3. 選擇 + 新增 以新增更多關鍵字或片語。要移除關鍵字或片語，請選擇刪除圖示。
4. 選擇 「套用 」以儲存預期的關鍵字。
5. 對所有你想測試關鍵字匹配的測試案例都重複這個步驟。

文字相似性

文本相似度測試方法比較代理人回應與你在測試集中定義的預期回應的相似度。當正確答案需要在措辭和句子結構上幾乎完全符合預期答案時，使用此測試方法。例如，在產生法律文件時，通常需要精確的措辭。此測試通常與比較意義測試方法同時使用，後者確保意義相似，但不保證措辭相似。它也不同於關鍵字匹配測試方法，後者確保某些詞彙的存在，但不保證結構的相似性。如果整個答案必須完全符合預期答案，則改用精確匹配測試方法。

餘弦相似度指標評估代理人的回答與預期回應措辭的相似度，並決定分數。分數範圍從0到1,1代表答案非常接近，0代表不完全吻合。您可以設定通過分數閾值來確定解答的通過分數。

新增或編輯測試方法時，請選擇文字相似度。
為此方法設定通過分數。
加入預期答案。任何沒有預期答案的測試案例，都會對此測試方法產生無效結果。
1. 選擇一個測試案例。
2. 加入你預期的答案。
3. 選擇 「申請 」以儲存預期答案。
4. 使用此方法對所有你想測試的測試案例重複此操作。

完全相符

適用於單一回應測試組。 完全相符比對檢查 Agent 的解答是否與測試中的預期回應完全相符：逐字元、逐字詞。如果一樣，即表示通過。若有什麼不同，則測試失敗。完全相符比對適用於簡短、精確的解答 (例如數字、代碼或固定字詞)。這不適合可以用多種正確方式表述的解答。

新增或編輯測試方法時，請選擇「完全匹配」。
加入預期答案。任何沒有預期答案的測試案例，都會對此測試方法產生無效結果。
1. 選擇一個測試案例。
2. 加入你預期的答案。
3. 選擇 「申請 」以儲存預期答案。
4. 使用此方法對所有你想測試的測試案例重複此操作。

習俗

自訂是一種可自訂的測試方法。這可讓您使用自己的準則來測試和標記 Agent 解答。例如，你可以為人力資源專員建立一個合規測試，將測試答案標示為符合或 不符合 你對人力資源合規的描述。

自訂測試有兩個組件供你設定：

評估指示：描述你想透過此測驗達成的目標。你希望測試能從你的代理人的答案中找出什麼？

良好的評估指示應該：

要有目標導向。
只使用允許的字元。
使用重點符號和標題來組織。

例如：

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

標籤：描述使用自訂測驗分配給每個答案的結果。標籤同樣有通過/失敗指派，其結果會計入此測試方法的測試集通過率。

標籤有名稱和描述。良好的描述：

簡潔。
包含你在匹配答案中尋找的屬性。

標籤的一種策略是設置兩個：一個是滿足你所需條件的答案，另一個是未達成條件的答案。例如，人力資源政策合規的客製化測試可能會標示合規與 不合規 。

新增或編輯測試方法時，請選擇自訂。
輸入這個自訂測試的名稱。
新增評估指示。
加上兩個或以上的標籤。每個標籤都有名稱和描述。

要新增更多標籤，請選擇 「新增標籤」。

標籤標題只能使用字母、數字、空格、連字號 -、底線 _、斜線 /、& 符號 &、加號 + 和句點 .。
為每個標籤設定通過或 不通過 結果。
請選擇 [確定]。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-05-21