通过对话评估,可以通过更长时间的交互来评估代理的整体行为。 它反映了真实用户与代理的交互方式,其中每个响应都依赖于正在进行的对话中的以前的上下文。 可以使用这些评估来确定代理是否可以维护上下文、要求澄清和完成多步骤任务。
还可以运行 单个响应评估,当想要测试代理如何回答特定问题、它调用的功能以及它在其答案中使用的确切措辞时,这很适合。
评估使用 测试集。 对话评估的测试集由最多 20 个 测试用例组成。 当你运行代理评估时,你选择一个测试集,Copilot Studio 会对该测试集里的所有测试用例对你的代理进行测试。
可以在一个测试集中创建测试用例,可以通过使用电子表格导入它们,或者使用 AI 根据代理的设计和资源生成消息。 然后你可以选择如何衡量代理在每个测试用例中的响应质量。
有关代理评估的工作原理,请参见 《关于代理评估》。
如需了解如何编辑现有测试集,请参见 “更改测试集细节”。
重要
在 Copilot Studio 中,测试结果有效期为 89 天。 为了更长时间地保存测试结果,请将结果导出为CSV文件。
创建对话测试集
- 访问你经纪人的 评估 页面。
选择 “新建评估”,然后选择“ 对话”。
可以使用以下任一方法创建多轮测试用例:
快速对话集:根据代理的描述、指令和功能自动生成 10 个简短对话。
完整对话集:使用代理的知识或定义的主题生成对话。 在此选项中,可以选择创建短对话或长时间对话。
使用测试聊天:将最新的测试聊天转换为测试用例。
注释
对话测试集最多支持 20 个测试用例。 每个测试用例最多支持 12 条总消息,即 6 对问题和答案。
在 “名称”下,键入测试集的名称。
更改或添加要使用的 测试方法 。 对于对话测试集,可以添加 “常规质量”、“ 关键字匹配”、“ 功能匹配 ”或 “分类” 自定义测试方法。
- 添加一种新方法:
- 选择 添加测试方法。
- 选择所有你想测试的方法,然后选择 确定。 你可以添加多种方法。
- 对于某些方法,先设置一个通过分数,然后选择 确定。 及格分数决定了何种得分结果视为通过或失败。
- 有些方法需要为每个测试用例添加预期响应或关键词。 更多信息请参见 选择评估方法。
- 选择一个现有的测试方法进行 编辑或删除。
测试方法 措施 测试集类型 计分 配置 整体质量 根据特定属性评估测试用例响应的质量 单个响应或对话 评分满分为100%。 没有 比较含义 测试用例答案的意义与预期答案的匹配程度 单个响应 评分满分为100%。 合格分数,预期答案 能力使用 测试用例是否使用了所有预期的资源或者仅使用了一些预期的资源 单个响应 通过/不通过 预期能力 关键词匹配 测试用例是否使用了全部或任何预期的关键词或短语 单个响应或对话 通过/不通过 预期关键词或短语 文本相似性 测试用例答案文本与预期答案的匹配程度 单个响应 评分满分为100%。 合格分数,预期答案 完全匹配 测试用例的答案是否完全符合预期答案 单个响应 通过/不通过 预期答案 - 添加一种新方法:
编辑测试用例的细节。 除 常规质量之外的所有测试方法都需要预期的响应或关键字。 有关编辑测试用例的详细信息,请参阅 “修改测试集”。
选择 用户配置文件,然后选择或添加你想用于此测试集的账户,或者继续进行不认证。 评估在测试中使用该账户连接知识来源和工具。 有关添加和管理用户配置文件的信息,请参见 “管理用户配置文件和连接”。
注释
自动化测试使用所选测试账户的认证。 如果你的代理拥有需要特定认证的知识来源或关系,请选择合适的账户进行测试。
编辑或创建更多测试用例。 在 测试集中编辑测试用例中了解详细信息。
选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。