批量测试提示（预览版）

[本主题是预发行文档，可能会更改。]

通过提示，你可以为业务自动化和代理创建自定义生成 AI 工具。确保这些工具的准确性、可靠性和效率至关重要。批量测试提示旨在使你能够在整个平台上验证和改进 AI 工具中使用的提示。

重要

这是一项面向生产环境的预览功能。
生产就绪预览需要满足补充使用条款。
提示在由 Azure OpenAI Service 提供支持的 GPT 模型上运行。
此功能可能尚未在你的区域中可用。有关详细信息，请参阅区域或美国政府环境的“功能可用性”部分中的“提示”部分。
此功能可能会受到使用限制或容量限制。

批处理测试的核心功能

批处理测试提供了一种系统的方法，用于验证各种数据集的提示。您可以：

上传或生成用于全面评估的测试数据集。
定义用于判断测试结果的评估条件。
执行批处理测试以评估测试数据集中的提示行为。
比较一段时间内的结果，以确保持续改进。
查看并调整自动评估，以确保与特定需求保持一致。

准确性分数是根据测试结果计算的，提供经验数据来信任 AI 工具。

如何使用批处理测试

使用以下步骤为提示设置和运行批处理测试。

定义测试用例

登录到 Copilot Studio、Power Apps 或 Power Automate。
访问提示列表：
- 在 Copilot Studio 中，选择 Tools，然后筛选提示。
- 在Power Apps和Power Automate中，选择AI 中心。
在提示词名称旁边，选择三个点（...）。
选择“测试中心”（预览版）。

下面是 Copilot Studio 中 Tools 屏幕的示例：

在 Copilot Studio 中，测试中心如以下屏幕截图所示：
使用可用选项之一添加测试用例：
- 上传：允许使用 csv 文件上传测试用例。如果要检查需要上传的文件的格式，请选择“下载测试数据架构”。
- AI-generate：允许基于提示使用 AI 生成测试用例。
- 使用活动数据：允许你提取最近的提示活动，以帮助你入门。
- 手动添加：允许手动创建测试用例。
任何选项都有助于创建能够运行的测试用例列表：

设置评估条件

创建测试用例后，选择右侧配置部分中的配置条件：
定义 及格分数，这是响应需要达到的最低分数，才能通过。
选择以下预生成条件之一：
- 响应质量：测试响应，以便清晰、有用和语气
- 响应匹配：测试特定字词和含义的响应
- JSON 正确性：测试响应遵循数据架构
这些条件和通过分数决定了在评估过程中如何评估测试用例输出。

运行批处理测试

在测试用例屏幕中，选择“ 全部运行 ”以在所有测试用例上运行评估，或选择要运行的测试用例，然后选择“ 运行”选择。

测试中心根据预定义标准评估结果，提供对提示性能的见解。
测试用例评估完成后，将显示结果屏幕：
若要访问以前的评估运行，请在 Copilot Studio 中选择屏幕顶部的提示名称，或在 Power Apps 或 Power Automate 中选择 Run history。
若要查看详细信息，请选择评估过程。

运行历史记录允许监视和分析一段时间内的测试结果，包括：

跟踪多个测试运行中准确率分数的进度。
比较不同运行的结果以识别趋势或回归。
了解特定测试结果被判定为通过或失败的原因，从而提供更详细的诊断信息。

对测试案例评估进行迭代，并监控每次评估运行间的显著变化。

提示和文本生成功能的常见问题解答

反馈

此页面是否有帮助？

Last updated on 2026-03-10