快速入门：使用代理评估 CLI (预览版)

智能智能 Microsoft 365 Copilot 副驾驶® 副驾驶®代理评估 CLI (@microsoft/m365-copilot-eval) 通过自动提示评估和基于 AI 的评分来帮助测试、衡量和改进代理的质量。本快速入门将指导你安装代理评估工具、配置环境、创建第一个数据集以及运行评估。

注意

代理评估 CLI 目前为预览版。特性和功能可能会发生更改。

先决条件

在开始之前，请确保：

部署到租户的智能 Microsoft 365 Copilot 副驾驶®代理。
Node.js 24.12.0 或更高版本 (用于node --version检查) 。
访问已部署 GPT-4o-mini 的 Foundry Models 中的 Azure OpenAI 资源。
Microsoft Entra租户中为代理评估 CLI 授予的管理员同意。如果你不是租户管理员，请在首次运行 runevals 之前请求管理员授予许可。有关详细信息，请参阅授予管理员同意。
租户 ID、Azure OpenAI 终结点和 API 密钥。如果没有这些值，请参阅获取环境变量的值。

注意

本快速入门假定你使用的是 Windows 开发环境。即将推出对其他操作系统的身份验证支持。

步骤 1：安装 CLI

使用 npm 全局安装代理评估 CLI：

npm install -g @microsoft/m365-copilot-eval

验证安装：

runevals --version

安装后，命令 runevals 在系统上全局可用。

步骤 2：设置项目结构

从 Microsoft 365 代理项目目录 (代理代码所在的) （而不是评估工具存储库）运行评估工具。

cd /path/to/your-agent-project

代理项目应包含以下文件和文件夹：

my-agent/
├── .env.local              # Agent configuration (Agents Toolkit projects)
├── .env.local.user         # Secrets — never committed
├── evals/
│   └── evals.json          # Your test dataset (auto-discovered)
└── .evals/
    └── <generated reports> # Results written here (YYYY-MM-DD_HH-MM-SS.html)

evals/evals.json在步骤 4 中创建数据集。报表 .evals/ 文件夹在首次运行时自动创建。

步骤 3：配置环境变量

选择与项目类型匹配的选项。

提示

如果使用 Microsoft 365 代理工具包生成代理，则代理配置中已有 .env.local 。在项目根目录中创建 .env.local.user 机密。

Microsoft 365 代理工具包项目

将机密添加到 .env.local.user：

# .env.local.user (NOT checked in — secrets go here)
AZURE_AI_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
AZURE_AI_API_KEY="your-api-key-here"
TENANT_ID="your-tenant-id-here"
AZURE_AI_API_VERSION="2024-12-01-preview" # default
AZURE_AI_MODEL_NAME="gpt-4o-mini" # default

将添加到 .env.local.user ：.gitignore

# User-specific secrets — never commit
.env.local.user
env/.env.local.user

步骤 4：创建第一个数据集

使用一小组提示和预期响应创建 evals/evals.json 。此示例使用最简单的有效架构进行单轮计算。

{
  "schemaVersion": "1.0.0",
  "items": [
    {
      "prompt": "What is Microsoft 365?",
      "expected_response": "Microsoft 365 is a cloud-based productivity suite that includes Office apps, cloud services, and device management."
    },
    {
      "prompt": "How do I share a file in Microsoft Teams?",
      "expected_response": "To share a file in Teams, you can upload it to a channel or chat, or share it from OneDrive with specific permissions."
    }
  ]
}

提示

如果跳过此步骤，该工具将在首次运行 runevals时提供生成具有示例提示的初学者文件。

有关完整的数据集架构、类别和高级模式，请参阅创建评估测试套件。

步骤 5：运行第一个评估

对于代理工具包项目， (自动使用 .env.local 和 .env.local.user) ：

runevals

对于非代理工具包项目：

runevals --env dev

步骤 6：确认安装成功

成功的运行将生成：

终端中的完成消息，类似于以下消息。

M365 Copilot Agent Evaluations CLI

Loading environment: dev
Agent ID: T_my-agent.declarativeAgent
Using prompts file: ./evals/evals.json

Running evaluations...

Evals completed successfully!
Results saved to: ./.evals/2026-04-22_14-30-45.html

保存到 ./.evals/YYYY-MM-DD_HH-MM-SS.html 的 HTML 报表会在浏览器中自动打开。

报表包括每个提示的分数。

计算器	类型	范围	默认阈值	默认值
相关性	基于 LLM	1-5	3	是
相干	基于 LLM	1-5	3	是
基础性	基于 LLM	1-5	3	否
相似	基于 LLM	1-5	3	否
引文	基于计数	>= 0	1	否
ExactMatch	字符串匹配	boolean	不适用	否
PartialMatch	字符串匹配	0.0-1.0	0.5	否

如果未看到这些结果，请参阅故障排除。

反馈

此页面是否有帮助？

Last updated on 2026-05-02