智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®代理评估 CLI (@microsoft/m365-copilot-eval) 通过结构化评估以及丰富的结果报告以及基于 AI 的评分来帮助测试、度量和改进代理的质量。
注意
代理评估 CLI 目前为预览版。 特性和功能可能会发生更改。
可执行的操作
评估工具提供以下功能:
- 运行批处理和交互式评估。
- 使用Azure AI + 机器学习评估指标自动对响应进行评分。
- 使用 JSON 数据集、内联提示或交互式输入进行测试。
- 以 HTML、JSON 或 CSV 格式生成报表。
评估指标
使用标准评估指标对每个响应进行评分。
| 计算器 | 类型 | 范围 | 默认阈值 | 默认值 |
|---|---|---|---|---|
| 相关性 | 基于 LLM | 1-5 | 3 | 是 |
| 相干 | 基于 LLM | 1-5 | 3 | 是 |
| 基础性 | 基于 LLM | 1-5 | 3 | 否 |
| 相似 | 基于 LLM | 1-5 | 3 | 否 |
| 引文 | 基于计数 | >= 0 | 1 | 否 |
| ExactMatch | 字符串匹配 | boolean | 不适用 | 否 |
| PartialMatch | 字符串匹配 | 0.0-1.0 | 0.5 | 否 |
评估工作流的工作原理
评估遵循一致的工作流:
- 安装和配置 CLI。
- 提供环境配置和凭据。
- 创建测试提示数据集。
- 针对代理运行评估。
- 查看结果并循环访问。
必需的环境变量
评估工具使用环境变量对租户进行身份验证并连接到你的租户,并在 Foundry Models 资源中Azure OpenAI。
| 变量 | 说明 | 默认值 |
|---|---|---|
TENANT_ID |
Microsoft Entra部署代理的租户 ID。 | 无 |
AZURE_AI_OPENAI_ENDPOINT |
Azure OpenAI 终结点 URL。 | 无 |
AZURE_AI_API_KEY |
Azure OpenAI API 密钥。 | 无 |
M365_TITLE_ID(可选) |
用于自动检测 Microsoft 365 代理 ID 以供评估的游戏 ID。 | 无 |
M365_AGENT_ID(可选) |
用于评估的显式代理 ID。 | 自动检测自 M365_TITLE_ID |
AZURE_AI_API_VERSION |
Azure OpenAI REST API 版本。 | 2024-12-01-preview |
AZURE_AI_MODEL_NAME |
Azure Foundry Models 资源中的 OpenAI 中的模型部署名称。 | gpt-4o-mini |
这些值启用身份验证并允许该工具运行基于 LLM 的评估评分。 有关如何获取这些值的详细信息,请参阅 获取环境变量的值。