智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®代理评估 CLI (@microsoft/m365-copilot-eval) 通过自动提示评估和基于 AI 的评分来帮助测试、衡量和改进代理的质量。 本快速入门将指导你安装代理评估工具、配置环境、创建第一个数据集以及运行评估。
注意
代理评估 CLI 目前为预览版。 特性和功能可能会发生更改。
先决条件
在开始之前,请确保:
- 部署到租户的智能 Microsoft 365 Copilot 副驾驶®代理。
-
Node.js 24.12.0 或更高版本 (用于
node --version检查) 。 - 访问已部署 GPT-4o-mini 的 Foundry Models 中的 Azure OpenAI 资源。
- Microsoft Entra租户中为代理评估 CLI 授予的管理员同意。 如果你不是租户管理员,请在首次运行
runevals之前请求管理员授予许可。 有关详细信息,请参阅 授予管理员同意。 - 租户 ID、Azure OpenAI 终结点和 API 密钥。 如果没有这些值,请参阅 获取环境变量的值。
注意
本快速入门假定你使用的是 Windows 开发环境。 即将推出对其他操作系统的身份验证支持。
步骤 1:安装 CLI
使用 npm 全局安装代理评估 CLI:
npm install -g @microsoft/m365-copilot-eval
验证安装:
runevals --version
安装后,命令 runevals 在系统上全局可用。
步骤 2:设置项目结构
从 Microsoft 365 代理项目目录 (代理代码所在的) (而不是评估工具存储库)运行评估工具。
cd /path/to/your-agent-project
代理项目应包含以下文件和文件夹:
my-agent/
├── .env.local # Agent configuration (Agents Toolkit projects)
├── .env.local.user # Secrets — never committed
├── evals/
│ └── evals.json # Your test dataset (auto-discovered)
└── .evals/
└── <generated reports> # Results written here (YYYY-MM-DD_HH-MM-SS.html)
evals/evals.json在步骤 4 中创建数据集。 报表 .evals/ 文件夹在首次运行时自动创建。
步骤 3:配置环境变量
选择与项目类型匹配的选项。
提示
如果使用 Microsoft 365 代理工具包生成代理,则代理配置中已有 .env.local 。 在项目根目录中创建 .env.local.user 机密。
Microsoft 365 代理工具包项目
将机密添加到 .env.local.user:
# .env.local.user (NOT checked in — secrets go here)
AZURE_AI_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
AZURE_AI_API_KEY="your-api-key-here"
TENANT_ID="your-tenant-id-here"
AZURE_AI_API_VERSION="2024-12-01-preview" # default
AZURE_AI_MODEL_NAME="gpt-4o-mini" # default
将 添加到 .env.local.user :.gitignore
# User-specific secrets — never commit
.env.local.user
env/.env.local.user
步骤 4:创建第一个数据集
使用一小组提示和预期响应创建 evals/evals.json 。 此示例使用最简单的有效架构进行单轮计算。
{
"schemaVersion": "1.0.0",
"items": [
{
"prompt": "What is Microsoft 365?",
"expected_response": "Microsoft 365 is a cloud-based productivity suite that includes Office apps, cloud services, and device management."
},
{
"prompt": "How do I share a file in Microsoft Teams?",
"expected_response": "To share a file in Teams, you can upload it to a channel or chat, or share it from OneDrive with specific permissions."
}
]
}
提示
如果跳过此步骤,该工具将在首次运行 runevals时提供生成具有示例提示的初学者文件。
有关完整的数据集架构、类别和高级模式,请参阅 创建评估测试套件。
步骤 5:运行第一个评估
对于代理工具包项目, (自动使用 .env.local 和 .env.local.user) :
runevals
对于非代理工具包项目:
runevals --env dev
步骤 6:确认安装成功
成功的运行将生成:
终端中的完成消息,类似于以下消息。
M365 Copilot Agent Evaluations CLI Loading environment: dev Agent ID: T_my-agent.declarativeAgent Using prompts file: ./evals/evals.json Running evaluations... Evals completed successfully! Results saved to: ./.evals/2026-04-22_14-30-45.html保存到
./.evals/YYYY-MM-DD_HH-MM-SS.html的 HTML 报表会在浏览器中自动打开。
报表包括每个提示的分数。
| 计算器 | 类型 | 范围 | 默认阈值 | 默认值 |
|---|---|---|---|---|
| 相关性 | 基于 LLM | 1-5 | 3 | 是 |
| 相干 | 基于 LLM | 1-5 | 3 | 是 |
| 基础性 | 基于 LLM | 1-5 | 3 | 否 |
| 相似 | 基于 LLM | 1-5 | 3 | 否 |
| 引文 | 基于计数 | >= 0 | 1 | 否 |
| ExactMatch | 字符串匹配 | boolean | 不适用 | 否 |
| PartialMatch | 字符串匹配 | 0.0-1.0 | 0.5 | 否 |
如果未看到这些结果,请参阅 故障排除。