通过


批量测试提示(预览版)

[本主题是预发行文档,可能会更改。]

通过提示,你可以为业务自动化和代理创建自定义生成 AI 工具。 确保这些工具的准确性、可靠性和效率至关重要。 批量测试提示旨在使你能够在整个平台上验证和改进 AI 工具中使用的提示。

重要

  • 这是一项面向生产环境的预览功能。
  • 生产就绪预览需要满足补充使用条款
  • 提示在由 Azure OpenAI Service 提供支持的 GPT 模型上运行。
  • 此功能可能尚未在你的区域中可用。 有关详细信息,请参阅区域或美国政府环境的“功能可用性”部分中的“提示”部分。
  • 此功能可能会受到使用限制或容量限制。

批处理测试的核心功能

批处理测试提供了一种系统的方法,用于验证各种数据集的提示。 您可以:

  • 上传或生成用于全面评估的测试数据集。
  • 定义用于判断测试结果的评估条件。
  • 执行批处理测试以评估测试数据集中的提示行为。
  • 比较一段时间内的结果,以确保持续改进。
  • 查看并调整自动评估,以确保与特定需求保持一致。

准确性分数是根据测试结果计算的,提供经验数据来信任 AI 工具。

如何使用批处理测试

使用以下步骤为提示设置和运行批处理测试。

定义测试用例

  1. 登录到 Copilot StudioPower AppsPower Automate

  2. 访问提示列表:

    • 在 Copilot Studio 中,选择 Tools,然后筛选提示。
    • 在Power Apps和Power Automate中,选择AI 中心
  3. 在提示词名称旁边,选择三个点(...)。

  4. 选择“测试中心”(预览版)。

    下面是 Copilot Studio 中 Tools 屏幕的示例:

    菜单的屏幕截图,其中显示了“测试中心 - 预览”选项。

    在 Copilot Studio 中,测试中心如以下屏幕截图所示:

    测试中心屏幕的屏幕截图。

  5. 使用可用选项之一添加测试用例:

    • 上传:允许使用 csv 文件上传测试用例。 如果要检查需要上传的文件的格式,请选择“下载测试数据架构”。
    • AI-generate:允许基于提示使用 AI 生成测试用例。
    • 使用活动数据:允许你提取最近的提示活动,以帮助你入门。
    • 手动添加:允许手动创建测试用例。

    任何选项都有助于创建能够运行的测试用例列表:

    上传的测试用例的屏幕截图。

设置评估条件

  1. 创建测试用例后,选择右侧配置部分中的配置 条件

    配置评估条件的屏幕截图。

  2. 定义 及格分数,这是响应需要达到的最低分数,才能通过。

  3. 选择以下预生成条件之一:

    • 响应质量:测试响应,以便清晰、有用和语气
    • 响应匹配:测试特定字词和含义的响应
    • JSON 正确性:测试响应遵循数据架构

    评估条件的屏幕截图。

    这些条件和通过分数决定了在评估过程中如何评估测试用例输出。

运行批处理测试

  1. 在测试用例屏幕中,选择“ 全部运行 ”以在所有测试用例上运行评估,或选择要运行的测试用例,然后选择“ 运行”选择

    要运行的测试的屏幕截图。

    测试中心根据预定义标准评估结果,提供对提示性能的见解。

  2. 测试用例评估完成后,将显示结果屏幕:

    测试结果的屏幕截图。

  3. 若要访问以前的评估运行,请在 Copilot Studio 中选择屏幕顶部的提示名称,或在 Power Apps 或 Power Automate 中选择 Run history

    运行历史记录的屏幕截图。

  4. 若要查看详细信息,请选择评估过程。

运行历史记录允许监视和分析一段时间内的测试结果,包括:

  • 跟踪多个测试运行中准确率分数的进度。
  • 比较不同运行的结果以识别趋势或回归。
  • 了解特定测试结果被判定为通过或失败的原因,从而提供更详细的诊断信息。

对测试案例评估进行迭代,并监控每次评估运行间的显著变化。