你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何在 Azure AI Studio 中查看评估结果

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

Azure AI Studio 评估页是一个通用型中心,它不仅允许可视化和评估结果,还可以充当用于优化、故障排除和选择适合部署需求的理想 AI 模型的控制中心。 它是 AI Studio 项目中数据驱动的决策和性能增强的一站式解决方案。 你可以无缝访问和解释来自各种源的结果,包括流、操场快速测试会话、评估提交 UI、SDK。 这种灵活性确保你能够以最适合工作流和首选项的方式与结果进行交互。

在查看评估结果后,你可以深入了解全面的检查。 这包括不仅可以查看单个结果,还可以在多次评估运行之间比较这些结果。 这样可以识别趋势、模式和差异,从而深入了解 AI 系统在不同条件下的性能。

在本文中学习如何:

  • 查看评估结果和指标。
  • 比较评估结果。
  • 了解内置评估指标。
  • 提高性能。
  • 查看评估结果和指标。

查找评估结果

提交评估后,可以导航到“评估”页面,在运行列表中找到提交的评估运行。

可以在运行列表中监视和管理评估运行。 通过灵活地使用列编辑器修改列以及实施筛选器,可以自定义和创建自己的运行列表版本。 此外,还可以快速查看各个运行的聚合评估指标,从而支持你执行快速比较。

评估运行列表的屏幕截图。

若要更深入地了解如何派生评估指标,可以选择“详细了解指标”选项来访问全面的说明。 此详细资源提供了对评估过程中所用指标的计算和解释的宝贵见解。

评估指标详细信息的屏幕截图。

可以选择特定的运行,以进入运行详细信息页。 在这里,你可以访问全面的信息,包括评估详细信息,例如测试数据集、任务类型、提示、温度等。 此外,你还可以查看与每个数据示例关联的指标。 指标分数图表以视觉方式呈现如何在整个数据集中为每个指标分布分数。

在指标详细信息表格中,可以全面检查每个数据示例。 在这里,你可以仔细审查生成的输出及其相应的评估指标分数。 此级别的详细信息可让你做出数据驱动的决策并采取特定操作来提高模型的性能。

基于评估指标的一些潜在操作项可能包括:

  • 模式识别:通过筛选数值和指标,可以向下钻取分数较低的示例。 调查这些示例,以确定模型的响应中的定期模式或问题。 例如,你可能会注意到,当模型在特定主题上生成内容时,通常分数较低。
  • 模型优化:使用评分较低的示例中的见解改进系统提示指令或微调模型。 如果观察到一致的问题(例如连贯性或相关性),还可以相应地调整模型的训练数据或参数。
  • 列自定义:列编辑器可让你创建表格的自定义视图,着重于与评估目标最相关的指标和数据。 这可以简化分析,帮助你更有效地发现趋势。
  • 关键字搜索:搜索框允许你在生成的输出中查找特定字词或短语。 这可用于找出与特定主题或关键字相关的问题或模式,并专门解决这些问题。

指标详细信息表格提供大量数据,可指导模型改进工作,从识别模式到自定义视图,以便基于发现的问题有效分析和优化模型。

我们按“性能和质量”以及“风险和安全”指标细分聚合视图或指标。 可以查看评估数据集中分数的分布,并查看每个指标的聚合分数。

  • 对于性能和质量指标,我们通过计算每个指标所有分数的平均值来聚合。 性能和质量指标仪表板选项卡的屏幕截图。
  • 对于风险和安全指标,我们通过计算每个指标的缺陷率来进行聚合。
    • 对于内容有害指标,缺陷率定义为测试数据集中超过严重性等级阈值的实例占整个数据集的百分比。 默认情况下,阈值设置为“中等”。
    • 在计算受保护或面临间接攻击的材料的缺陷率时,缺陷率是基于输出结果为“true”(即有缺陷)的实例所占的百分比,计算公式如下:缺陷率 =(有缺陷实例数量/总实例数量)× 100。 风险和安全指标仪表板选项卡的屏幕截图。

下面是问题解答方案的指标结果的一些示例:

问题解答方案的指标结果的屏幕截图。

下面是聊天方案的指标结果的一些示例:

对话方案的指标结果的屏幕截图。

对于多回合对话场景,可以选择“查看每回合评估结果”来查看对话中每回合的评估指标。

该屏幕截图显示了输入消息中查看每回合评估结果的链接。

每回合评估结果的屏幕截图。

对于风险和安全指标,评估提供每个分数的严重性分数和推理。 下面是问题解答方案的风险和安全指标结果的一些示例:

问题解答方案的风险和安全指标结果的屏幕截图。

评估结果对不同的受众可能有不同的含义。 例如,安全评估可能会生成暴力内容为“低”严重性的标签,该标签可能与人类审查员对特定暴力内容严重性的定义不一致。 在审查评估结果以显示人工审查者批准或标记为错误的实例时,我们提供了人工反馈列,其中包含拇指向上和拇指向下。

包含人工反馈的风险和安全指标结果的屏幕截图。

了解每个内容风险指标时,可以通过选择图表上方的指标名称来轻松查看每个指标定义和严重性等级,以了解弹出窗口中的详细说明。

风险和安全指标详细说明弹出窗口的屏幕截图。

如果运行出现问题,还可以使用日志和跟踪调试评估运行。

下面是可用于调试评估运行的日志的一些示例:

可用于调试评估运行的日志的屏幕截图。

以下是跟踪和调试视图的示例:

可用于调试评估运行的跟踪的屏幕截图。

如果要评估提示流,则可以选择“在流中查看”按钮导航到评估的流页面,以更新流。 例如,添加其他元提示说明,或更改某些参数并重新评估。

比较评估结果

为便于在两个或多个运行之间进行全面比较,可以选择所需的运行,并选择“比较”按钮或“切换到仪表板视图”按钮(对于一般详细仪表板视图)来启动过程。 此功能可让你分析和对比多个运行的性能和结果,从而做出更明智的决定和针对性的改进。

用于比较评估的选项的屏幕截图。

在仪表板视图中,可以访问两个重要的组件:指标分布比较图表和比较表格。 借助这些工具,可以并行分析所选评估运行,从而轻松准确地比较每个数据示例的各个方面。

指标评估页的屏幕截图,其中包含用于选择手动评估的选项。

在比较表格中,可以将鼠标悬停在要用作参考点并设置为基线的特定运行上来建立比较基线。 此外,通过激活“显示增量”开关,可以轻松地直观显示基线运行与其他运行之间的数值差异。 此外,启用“仅显示差异”切换后,表格仅显示所选运行之间不同的行,以帮助识别不同的变体。

使用这些比较功能,你可以做出明智的决定来选择最佳版本:

  • 基线比较:通过设置基线运行,可以识别用于与其他运行进行比较的参考点。 这便于你查看每个运行与所选标准的偏离程度。
  • 数值评估:启用“显示增量”选项有助于了解基线与其他运行之间的差异程度。 这适用于评估各种运行在特定评估指标方面的表现。
  • 差异隔离:“仅显示差异”功能通过仅突出显示运行之间存在差异的区域来简化分析。 这有助于确定需要改进或调整的方面。

通过有效地使用这些比较工具,可以识别模型或系统的哪个版本在定义的条件和指标方面表现最佳,最终帮助你为应用程序选择最佳选项。

并排评估结果的屏幕截图。

衡量越狱漏洞

评估越狱是一种比较性的度量,而不是 AI 辅助的指标。 对两个不同的红队数据集运行评估:基线对抗性测试数据集与第一轮越狱注入的相同对抗性测试数据集。 可以使用对抗性数据模拟器生成包含或不包含越狱注入的数据集。

若要了解应用程序是否容易受到越狱攻击,可以指定何为基线,然后在比较表中打开“越狱缺陷率”切换。 越狱缺陷率是指在测试数据集中,相对于整个数据集大小的基线,越狱注入对任何内容风险指标产生较高严重性分数的实例的百分比。 可以在比较仪表板中选择多个评估,以查看缺陷率的差异。

切换打开越狱缺陷的并排评估结果的屏幕截图。

提示

越狱缺陷率仅针对大小相同的数据集,且仅当所有运行都包括内容风险和安全指标时才会比较计算。

了解内置评估指标

了解内置指标对于评估 AI 应用程序的性能和有效性至关重要。 通过深入了解这些关键度量工具,可以更好地解释结果、做出明智的决定,并微调应用程序以实现最佳结果。 要详细了解每个指标的重要性、计算方式及其在评估模型不同方面中的作用,以及如何解释结果以做出数据驱动的改进,请参阅评估和监视指标

后续步骤

详细了解如何评估生成式 AI 应用程序:

详细了解危害缓解技术