快速入门:使用代理评估 CLI (预览版)

智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®代理评估 CLI (@microsoft/m365-copilot-eval) 通过自动提示评估和基于 AI 的评分来帮助测试、衡量和改进代理的质量。 本快速入门将指导你安装代理评估工具、配置环境、创建第一个数据集以及运行评估。

注意

代理评估 CLI 目前为预览版。 特性和功能可能会发生更改。

先决条件

在开始之前,请确保:

  • 部署到租户的智能 Microsoft 365 Copilot 副驾驶®代理。
  • Node.js 24.12.0 或更高版本 (用于node --version检查) 。
  • 访问已部署 GPT-4o-mini 的 Foundry Models 中的 Azure OpenAI 资源。
  • Microsoft Entra租户中为代理评估 CLI 授予的管理员同意。 如果你不是租户管理员,请在首次运行 runevals 之前请求管理员授予许可。 有关详细信息,请参阅 授予管理员同意
  • 租户 ID、Azure OpenAI 终结点和 API 密钥。 如果没有这些值,请参阅 获取环境变量的值

注意

本快速入门假定你使用的是 Windows 开发环境。 即将推出对其他操作系统的身份验证支持。

步骤 1:安装 CLI

使用 npm 全局安装代理评估 CLI:

npm install -g @microsoft/m365-copilot-eval

验证安装:

runevals --version

安装后,命令 runevals 在系统上全局可用。

步骤 2:设置项目结构

Microsoft 365 代理项目目录 (代理代码所在的) (而不是评估工具存储库)运行评估工具。

cd /path/to/your-agent-project

代理项目应包含以下文件和文件夹:

my-agent/
├── .env.local              # Agent configuration (Agents Toolkit projects)
├── .env.local.user         # Secrets — never committed
├── evals/
│   └── evals.json          # Your test dataset (auto-discovered)
└── .evals/
    └── <generated reports> # Results written here (YYYY-MM-DD_HH-MM-SS.html)

evals/evals.json在步骤 4 中创建数据集。 报表 .evals/ 文件夹在首次运行时自动创建。

步骤 3:配置环境变量

选择与项目类型匹配的选项。

提示

如果使用 Microsoft 365 代理工具包生成代理,则代理配置中已有 .env.local 。 在项目根目录中创建 .env.local.user 机密。

Microsoft 365 代理工具包项目

将机密添加到 .env.local.user

# .env.local.user (NOT checked in — secrets go here)
AZURE_AI_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
AZURE_AI_API_KEY="your-api-key-here"
TENANT_ID="your-tenant-id-here"
AZURE_AI_API_VERSION="2024-12-01-preview" # default
AZURE_AI_MODEL_NAME="gpt-4o-mini" # default

将 添加到 .env.local.user.gitignore

# User-specific secrets — never commit
.env.local.user
env/.env.local.user

步骤 4:创建第一个数据集

使用一小组提示和预期响应创建 evals/evals.json 。 此示例使用最简单的有效架构进行单轮计算。

{
  "schemaVersion": "1.0.0",
  "items": [
    {
      "prompt": "What is Microsoft 365?",
      "expected_response": "Microsoft 365 is a cloud-based productivity suite that includes Office apps, cloud services, and device management."
    },
    {
      "prompt": "How do I share a file in Microsoft Teams?",
      "expected_response": "To share a file in Teams, you can upload it to a channel or chat, or share it from OneDrive with specific permissions."
    }
  ]
}

提示

如果跳过此步骤,该工具将在首次运行 runevals时提供生成具有示例提示的初学者文件。

有关完整的数据集架构、类别和高级模式,请参阅 创建评估测试套件

步骤 5:运行第一个评估

对于代理工具包项目, (自动使用 .env.local.env.local.user) :

runevals

对于非代理工具包项目:

runevals --env dev

步骤 6:确认安装成功

成功的运行将生成:

  • 终端中的完成消息,类似于以下消息。

    M365 Copilot Agent Evaluations CLI
    
    Loading environment: dev
    Agent ID: T_my-agent.declarativeAgent
    Using prompts file: ./evals/evals.json
    
    Running evaluations...
    
    Evals completed successfully!
    Results saved to: ./.evals/2026-04-22_14-30-45.html
    
  • 保存到 ./.evals/YYYY-MM-DD_HH-MM-SS.html 的 HTML 报表会在浏览器中自动打开。

报表包括每个提示的分数。

计算器 类型 范围 默认阈值 默认值
相关性 基于 LLM 1-5 3
相干 基于 LLM 1-5 3
基础性 基于 LLM 1-5 3
相似 基于 LLM 1-5 3
引文 基于计数 >= 0 1
ExactMatch 字符串匹配 boolean 不适用
PartialMatch 字符串匹配 0.0-1.0 0.5

如果未看到这些结果,请参阅 故障排除