你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

如何在 Azure AI Foundry 门户中查看评估结果

2025-05-20

Azure AI Foundry 门户评估页是一个通用型中心，它不仅允许可视化和评估结果，还可以充当用于优化、故障排除和选择适合部署需求的理想 AI 模型的控制中心。它是 Azure AI Foundry 项目中以数据为依据进行决策和增强性能的一站式解决方案。你可以无缝访问和解释来自各种源的结果，包括流、操场快速测试会话、评估提交 UI、SDK。这种灵活性确保你能够以最适合工作流和首选项的方式与结果进行交互。

在查看评估结果后，你可以深入了解全面的检查。这包括查看单个结果以及跨多个评估运行比较这些结果的功能。这样，便可以识别趋势、模式和差异，从而在各种条件下深入了解 AI 系统的性能。

在本文中学习如何：

查看评估结果和指标。
比较评估结果。
提高性能。
查看评估结果和指标。

查找评估结果

提交评估后，可以导航到“评估”页面，在运行列表中找到提交的评估运行。

可以在运行列表中监视和管理评估运行。通过灵活地使用列编辑器修改列以及实施筛选器，可以自定义和创建自己的运行列表版本。此外，还可以快速查看各个运行的聚合评估指标，从而支持你执行快速比较。

小窍门

若要查看使用 promptflow-evals SDK 或 azure-ai-evaluation 版本 1.0.0b1、1.0.0b2、1.0.0b3 中的任意版本运行的评估，请启用“显示所有运行”切换开关以找到该运行。

若要更深入地了解如何派生评估指标，可以选择“详细了解指标”选项来访问全面的说明。此详细资源提供对评估过程中使用的指标的计算和解释的见解。

查看评估运行表时，可以选择一个特定的运行，这将带你进入该运行的详细信息页。在这里，你可以访问全面的信息，包括评估详细信息，例如测试数据集、任务类型、提示、温度等。此外，你还可以查看与每个数据示例关联的指标。指标仪表板提供了每个测试的指标中数据集的通过率的可视化表示形式。

谨慎

已加入 Foundry 开发者平台的 Azure OpenAI 用户可享受的向后兼容性：

以前使用 oai.azure.com 管理其模型部署和运行评估的用户，并已载入 Foundry 开发人员平台（FDP）后，使用 ai.azure.com 时将存在一些限制：

首先，用户将无法查看使用 Azure OpenAI API 创建的评估。相反，若要查看这些内容，用户必须导航回 oai.azure.com。
其次，用户将无法使用 Azure OpenAI API 在 AI Foundry 中运行评估。相反，这些用户应继续使用 oai.azure.com。但是，用户可以使用数据集评估创建选项中直接在 AI Foundry（ai.azure.com）中提供的 Azure OpenAI 计算器。如果部署是从 Azure OpenAI 迁移到 Azure Foundry，则不支持微调模型评估选项。
对于数据集上传 + 自带存储方案，需要满足一些配置要求：
- 帐户身份验证必须是 Entra ID。
- 需要将存储添加到帐户（如果已将其添加到项目中，则会收到服务错误）。
- 用户需要在 Azure 门户中通过访问控制将其项目添加到其存储帐户。

若要详细了解如何在 Azure OpenAI 中心专门使用 OpenAI 评估评分员创建评估，请参阅如何在 Azure AI Foundry 模型评估中使用 Azure OpenAI

指标仪表板图表

我们将按照“AI 质量（AI 辅助）”、“风险和安全”、“AI 质量 (NLP)”以及“自定义”（如果适用）对不同类型的指标细分聚合视图。根据创建评估时选择的条件，结果显示为通过/失败的百分比。有关每个指标定义及其计算方式的详细信息，请参阅什么是计算器？。

对于“AI 质量（AI 辅助）”，我们通过计算每个指标的所有分数的平均值进行聚合。如果你计算 Groundedness Pro，则输出是二进制值，因此聚合分数即为通过率，计算方法为 (true 值数/实例数) x 100。
对于风险和安全指标，我们通过计算每个指标的缺陷率来进行聚合。
- 对于内容有害指标，缺陷率定义为测试数据集中超过严重性等级阈值的实例占整个数据集的百分比。默认情况下，阈值设置为“中等”。
- 在计算受保护或面临间接攻击的材料的缺陷率时，缺陷率是基于输出结果为“true”（即有缺陷）的实例所占的百分比，计算公式如下：缺陷率 =（有缺陷实例数量/总实例数量）× 100。
对于 AI 质量（NLP）指标，我们通过计算每个指标的所有分数的平均值来聚合。

详细指标结果表

在数据部分中，可以全面检查每个单个数据示例和相关指标。在此处，可以仔细检查生成的输出及其相应的评估指标分数，并根据测试运行时的通过等级来查看它是否通过。此级别的详细信息可让你做出数据驱动的决策并采取特定操作来提高模型的性能。

基于评估指标的一些潜在操作项可能包括：

模式识别：通过筛选数值和指标，可以向下钻取分数较低的示例。调查这些示例，以确定模型的响应中的定期模式或问题。例如，你可能会注意到，当模型在特定主题上生成内容时，通常分数较低。
模型优化：使用评分较低的示例中的见解改进系统提示指令或微调模型。如果观察到一致的问题（例如连贯性或相关性），还可以相应地调整模型的训练数据或参数。
列自定义：列编辑器可让你创建表格的自定义视图，着重于与评估目标最相关的指标和数据。这可以简化分析，帮助你更有效地发现趋势。
关键字搜索：搜索框允许你在生成的输出中查找特定字词或短语。这可用于找出与特定主题或关键字相关的问题或模式，并专门解决这些问题。

指标详细信息表格提供大量数据，可指导模型改进工作，从识别模式到自定义视图，以便基于发现的问题有效分析和优化模型。

下面是问题解答方案的指标结果的一些示例：

某些评估具有子计算器，使你能够查看子评估结果的 JSON。若要查看结果，请选择 JSON 中的“查看 ”以打开结果。

下面是聊天方案的指标结果的一些示例。若要在整个多轮对话中查看结果，请在对话列中选择“按轮次查看评估结果”。

选择“按轮次查看评估结果”时，会看到以下屏幕：

对于多模态场景（文本 + 图像）中的安全评估，可以查看详细指标结果表中来自输入和输出的图像，以便更好地了解评估结果。由于多模态评估目前仅支持用于对话场景，因此可以选择“按轮次查看评估结果”来检查每个轮次的输入和输出。

选择要展开的图像并进行查看。默认情况下，所有图像都是模糊的，以保护你免受潜在有害内容的影响。要查看清晰图像，请打开“检查模糊图像”开关。

评估结果对于不同的受众可能有不同的含义。例如，安全评估可能会为暴力内容的“低”严重性生成标签，这些标签可能与人类审阅者对特定暴力内容可能有多严重性的定义不一致。通过/失败是根据评估创建过程中的通过成绩标准来确定的。在审查评估结果以显示人工审查者批准或标记为错误的实例时，我们提供了人工反馈列，其中包含拇指向上和拇指向下。