代理评估 CLI 概述 (预览版)

智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®代理评估 CLI (@microsoft/m365-copilot-eval) 通过结构化评估以及丰富的结果报告以及基于 AI 的评分来帮助测试、度量和改进代理的质量。

注意

代理评估 CLI 目前为预览版。 特性和功能可能会发生更改。

可执行的操作

评估工具提供以下功能:

  • 运行批处理和交互式评估。
  • 使用Azure AI + 机器学习评估指标自动对响应进行评分。
  • 使用 JSON 数据集、内联提示或交互式输入进行测试。
  • 以 HTML、JSON 或 CSV 格式生成报表。

评估指标

使用标准评估指标对每个响应进行评分。

计算器 类型 范围 默认阈值 默认值
相关性 基于 LLM 1-5 3
相干 基于 LLM 1-5 3
基础性 基于 LLM 1-5 3
相似 基于 LLM 1-5 3
引文 基于计数 >= 0 1
ExactMatch 字符串匹配 boolean 不适用
PartialMatch 字符串匹配 0.0-1.0 0.5

评估工作流的工作原理

评估遵循一致的工作流:

  1. 安装和配置 CLI。
  2. 提供环境配置和凭据。
  3. 创建测试提示数据集。
  4. 针对代理运行评估。
  5. 查看结果并循环访问。

必需的环境变量

评估工具使用环境变量对租户进行身份验证并连接到你的租户,并在 Foundry Models 资源中Azure OpenAI。

变量 说明 默认值
TENANT_ID Microsoft Entra部署代理的租户 ID。
AZURE_AI_OPENAI_ENDPOINT Azure OpenAI 终结点 URL。
AZURE_AI_API_KEY Azure OpenAI API 密钥。
M365_TITLE_ID(可选) 用于自动检测 Microsoft 365 代理 ID 以供评估的游戏 ID。
M365_AGENT_ID(可选) 用于评估的显式代理 ID。 自动检测自 M365_TITLE_ID
AZURE_AI_API_VERSION Azure OpenAI REST API 版本。 2024-12-01-preview
AZURE_AI_MODEL_NAME Azure Foundry Models 资源中的 OpenAI 中的模型部署名称。 gpt-4o-mini

这些值启用身份验证并允许该工具运行基于 LLM 的评估评分。 有关如何获取这些值的详细信息,请参阅 获取环境变量的值