你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
在本文中,您将学到如何:
- 找到并打开评估运行。
- 查看聚合和示例级指标。
- 比对各次运行的结果。
- 解释指标类别和计算。
- 排查缺失或不完整指标的问题。
先决条件
在 Foundry 项目中的 Foundry User 角色。 有关详细信息,请参阅Microsoft Foundry 的基于角色的访问控制。
Important
Foundry RBAC 角色最近已更名。 Foundry 用户、Foundry 所有者、Foundry 帐户所有者和 Foundry 项目经理之前的名称分别为“Azure AI 用户”、“Azure AI 所有者”、“Azure AI 帐户所有者”和“Azure AI 项目经理”。 在重命名推出时,你仍可能会在某些位置看到以前的名称。重命名后,角色 ID 和核心权限保持不变。
已完成的评估运行。
- 若要在门户中运行评估,请参阅 评估生成 AI 模型和应用程序。
- 若要从 SDK 运行评估,请参阅 从 SDK 运行评估 或 评估 AI 代理。
查看评估结果
在 Foundry 门户中,转到项目,然后从左窗格中选择“评估”。
从列表中选择评估进程以打开其详细信息页。 如果运行仍在进行中,状态会显示 “正在运行 ”并在完成时自动更新。
详细信息页显示:
领域 描述 名字 评估运行的名称。 目标 已评估的模型或代理。 数据集 所使用的测试数据集。 选择下载图标将其导出为 CSV 文件。 地位 运行的当前状态(正在运行、 已完成或 失败)。 评估令牌 运行期间评估器使用的令牌。 目标标记 被评估的模型或代理所消耗的令牌。 分数 每个使用的评估器的聚合分数。 将鼠标悬停在分数单元格上以查看令牌使用情况详细信息和其他上下文。
选择 “详细了解指标 ”以查看指标定义和评分公式。
评估运行详细信息
选择运行的名称以查看每个单个查询的行级结果。 对于每一行,你可以查看查询、响应、真实情况、评估器分数和分数解释。
比较评估结果
若要比较两个或多个运行,请选择要比较的运行并启动进程。
- 在评估详细信息页中选择两个或两个以上的运行。
- 选择Compare。
可以看到所有所选运行的并行比较视图。
比较使用统计t检验,这为你提供了更敏感且更可靠的结果,帮助你做出决策。 可以使用此功能的不同功能:
- 基线比较:通过设置基线运行,您可以确定一个用来比较其他运行的参考点。 可以看到每次运行如何偏离所选标准。
- 统计 t 检验评估:每个单元格提供使用不同颜色代码且在统计方面具有显著性差异的结果。 还可以将鼠标悬停在单元格上以获取样本大小和 p 值。
| 传说 | 定义 |
|---|---|
| ImprovedStrong | 统计显著性差异大 (p<=0.001) 且朝所需方向移动 |
| 改进的Weak | Stat-sig (0.001<p<=0.05) 并按照所需方向移动 |
| DegradedStrong | 统计显著性差异大 (p<=0.001) 但朝错误方向移动 |
| DegradedWeak | 统计信号 (0.001<p<=0.05) 并向错误方向移动 |
| ChangedStrong | 高度统计显著 (p<=0.001) 且期望方向为中性。 |
| ChangedWeak | Stat-sig (0.001<p<=0.05) 和所需方向是中性方向 |
| 尚无定论 | 示例太少,或 p>=0.05 |
注意
比较视图未保存。 如果您离开页面,可以重新选择运行结果,然后选择比较以重新生成页面视图。
了解内置评估指标
了解内置指标对于评估 AI 应用程序的性能和有效性至关重要。 通过了解这些关键度量工具,可以解释结果、做出明智的决策,并微调应用程序以实现最佳结果。
若要了解详细信息,请参阅 内置计算器。
故障 排除
| 症状 | 可能的原因 | 行动 |
|---|---|---|
| 运行保持挂起状态 | 高服务负载或排队作业 | 刷新、验证配额,并在延长时重新提交 |
| 缺少指标 | 未在创建时选择 | 重新运行并选择所需的指标 |
| 所有安全指标都为零 | 类别已禁用或不受支持的模型 | 在风险和安全评估器中确认模型和评估器支持 |
| 接地性意外偏低 | 检索/上下文不完整 | 验证上下文构造/检索延迟 |