你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 门户中的模型排行榜(预览版)

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

使用 Azure AI Foundry 门户中的模型排行榜(预览版),可以简化 Azure AI Foundry 模型目录中的模型选择过程。 由行业标准基准支持的模型排行榜可以帮助你找到自定义 AI 解决方案的最佳模型。 在模型目录的“模型排行榜”部分中,可以 浏览排行榜 以比较可用模型,如下所示:

每当找到喜欢的模型时,都可以将其选中,并放大模型目录中模型 的详细基准测试结果 。 如果对模型感到满意,可以部署模型,在沙盒中试用该模型,或对您的数据进行评估。 排行榜支持跨文本语言模型(大型语言模型(LLM)和小型语言模型(SLM)和嵌入模型进行基准测试。

模型基准评估以下类别的 LLM 和 SLA:质量、安全、成本和吞吐量。 此外,我们还使用标准基准评估嵌入模型的质量。 随着更多更合理的不饱和基准的加入以及新模型添加到模型目录,排行榜会定期更新。

语言模型的质量基准

Azure AI 通过使用标准的、全面的基准数据集中的准确性评分来评估 LLM 和 SLM 的质量,这些数据集测量模型在推理、知识、问答、数学和编程等方面的能力。

索引 说明
质量指数 质量索引是在综合标准基准数据集上,通过对适用的准确度分数(exact_match、pass@1、arena_hard)进行平均计算来得出的。

质量指数在零到一的范围内提供。 质量指数值越高越好。 质量索引中包含的数据集包括:

数据集名称 排行榜应用场景
arena_hard 质量保证
bigbench_hard 推理
gpqa 质量保证
humanevalplus 编写代码
ifeval 推理
算术 数学
mbppplus 编写代码
mmlu_pro 一般知识

查看准确性分数的更多详细信息:

指标 说明
准确性 准确度评分在数据集和模型级别提供。 在数据集级别,评分是对数据集中所有示例计算的准确度指标的平均值。 在所有情况下都使用exact-match的准确性指标,但对于使用指标的HumanEvalpass@1数据集除外。 完全匹配会根据数据集将模型生成的文本与正确答案进行比较,如果生成的文本与答案完全匹配,则报告 1,否则报告 0。 pass@1 指标用于度量在代码生成任务中通过了一组单元测试的模型解决方案的比例。 在模型级别,准确度评分是每个模型的数据集级准确度的平均值。

准确性分数是在零到一的范围内提供的。 值越大越好。

语言模型的安全基准

为了指导选择用于评估的安全基准,我们应用结构化筛选和验证过程,旨在确保相关性和严格性。 如果基准能解决高优先级风险,就符合入职资格。 对于安全排行榜,我们查看不同的基准,这些基准可以被视为足够可靠,以便在与安全相关的某些主题上提供一些信号。 我们选择 HarmBench 来代理模型安全性,并按如下所示组织方案排行榜:

数据集名称 排行榜应用场景 指标 解释
HarmBench (标准) 标准有害行为 攻击成功率 较低值意味着对生成非法标准有害内容的攻击具有更好的抵御能力
HarmBench(上下文) 在特定语境中具有害处的行为 攻击成功率 较低的数值意味着对生成非法上下文有害内容的攻击具有更好的抵御能力
HarmBench (侵犯版权) 侵犯版权 攻击成功率 较低的值意味着更好地抵御旨在违反非法版权的行为的攻击
WMDP 敏感域中的知识 准确性 较高的值表示敏感领域的更多知识(网络安全、生物安全和化学安全)
Toxigen 能够检测有毒内容 F1 分数 较高的值意味着能够更好地检测有毒内容

模型有害行为

HarmBench 基准衡量模型有害行为,包括来自模型的非法有害行为的提示。 与安全相关时,基准涵盖 7 种语义类别的行为:

  • 网络犯罪和未经授权的入侵
  • 化学和生物武器/药物
  • 侵犯版权
  • 错误信息与反信息
  • 骚扰和欺凌
  • 非法活动
  • 一般性伤害

这 7 个类别可以汇总为 3 个功能类别

  • 标准有害行为
  • 上下文有害行为
  • 版权违规

每个功能类别都出现在单独的方案排行榜中。 我们使用来自 HarmBench(无攻击)和 HarmBench 评估器的直接提示来计算攻击成功率(ASR)。 较低的 ASR 值意味着更安全的模型。 我们不会探索任何评估攻击策略,并且模型基准测试在 Azure AI 内容安全筛选器关闭的情况下执行。

模型检测有毒内容的能力

Toxigen 是一个大规模计算机生成的数据集,用于对抗和隐式仇恨语音检测。 它包含隐式有毒和良性的句子,提到13个少数民族。 我们使用 Toxigen 的带批注样本进行评估和计算 F1 分数来衡量分类性能。 此数据集的评分更高意味着模型更善于检测有毒内容。 模型基准测试在 Azure AI 内容安全筛选器关闭的情况下执行。

敏感域中的模型知识

大规模杀伤性武器代理(WMDP)基准用于衡量模型在敏感领域中的知识,包括生物安全、网络安全和化学安全。 排行榜使用网络安全、生物安全和化学安全的平均准确度分数。 更高的 WMDP 准确度分数表示对危险能力(安全角度更差的行为)的了解。 使用默认的 Azure AI 内容安全筛选器执行模型基准测试。 这些安全筛选器检测和阻止暴力、自我伤害、性、仇恨和不公平性的内容危害,但不针对网络安全、生物安全和化学安全类别。

安全基准的限制

我们理解并承认安全是一个复杂的主题,具有多个维度。 目前没有一个开源基准可以测试或表示不同方案中系统的完整安全性。 此外,这些基准中的大多数都遭受了饱和,或基准设计和风险定义之间的不对称,可能缺乏关于目标风险概念化和作化方式的明确文档,因此很难评估基准是否准确捕获风险的细微差别。 这种限制可能导致在实际安全方案中过度估计或低估模型性能。

语言模型的性能基准

性能指标根据每天发送的 24 条跟踪(每条跟踪两个请求,每条跟踪间隔 1 小时)在 14 天内进行汇总计算得出的。 以下默认参数用于向模型终结点发出的每个请求:

参数 价值 适用于
区域 美国东部/美国东部 2 标准部署Azure OpenAI
每分钟令牌数 (TPM) 速率限制 对于非推理模型,为 30k(180 RPM,基于 Azure OpenAI),对于推理模型,为 100k
N/A (标准部署)
对于 Azure OpenAI 模型,用户可以根据部署类型(标准、全局、全局标准等)选择速率限制范围。
对于标准部署,此设置是抽象的。
请求数量 每小时 1 个追踪(每天 24 个追踪),每个追踪包含 2 个请求 标准部署,Azure OpenAI
跟踪/运行数 14 天,每天 24 个追踪,336 次运行 标准部署,Azure OpenAI
提示/上下文长度 中等长度 标准部署,Azure OpenAI
处理的令牌数(中等) 输入与输出令牌的比例为 80:20,即 800 个输入令牌对应 200 个输出令牌。 标准部署,Azure OpenAI
并发请求数 1 个(请求依次逐个发送) 标准部署,Azure OpenAI
数据 合成的(基于静态文本准备的输入提示) 标准部署,Azure OpenAI
区域 美国东部/美国东部 2 标准部署和 Azure OpenAI
部署类型 标准 仅适用于 Azure OpenAI
流媒体 真 实 适用于标准部署和 Azure OpenAI。 对于通过托管计算部署的模型,或者对于不支持流式处理的终结点,TTFT 表示为 P50 的延迟指标。
SKU Standard_NC24ads_A100_v4(24 核、220GB RAM、64GB 存储) 仅适用于托管计算(估算成本和性能指标)

LLM 和 SLM 的性能通过以下指标进行评估:

指标 说明
延迟平均值 通过多个请求计算得出的处理请求所用的平均时间(以秒为单位)。 为了计算此指标,我们将在两周内每小时向终结点发送一个请求,并计算平均值。
延迟 P50 延迟的第 50 百分位值(中值)(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,50% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P90 延迟的第 90 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,90% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P95 延迟的第 95 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,95% 的请求在“x”秒内完成,“x”是延迟度量。
延迟 P99 延迟的第 99 百分位值(从发出请求到收到带有成功代码的完整响应所用的时间)。 例如,当我们向终结点发送请求时,99% 的请求在“x”秒内完成,“x”是延迟度量。
吞吐量 GTPS 每秒生成的令牌数 (GTPS) 是从请求发送到终结点开始每秒生成的输出令牌数。
吞吐量 TTPS 每秒令牌总数 (TTPS) 是每秒处理的令牌总数,包括来自输入提示和生成的输出令牌。 对于不支持流式处理的模型,响应第一个令牌的时间 (TTFT) 表示 P50 的延迟值(即接收响应所需的时间)
延迟 TTFT 生成首个令牌的总时间 (TTFT) 是启用流式处理时生成从终结点返回的响应中的第一个令牌所花费的时间。
令牌间隔时间 此指标是接收令牌的间隔时间。

Azure AI 还显示延迟和吞吐量的性能指数,如下所示:

索引 说明
延迟指数 生成首个令牌的平均时间。 值越小越好。
吞吐量指标 每秒生成的平均令牌数。 值越大越好。

对于延迟或吞吐量等性能指标,生成首个令牌的时间和每秒生成的令牌数可以更全面地反映模型的典型性能和行为。 我们定期刷新性能指标。

语言模型的成本基准

成本计算是使用托管在 Azure AI 平台上的 LLM 或 SLM 模型终结点的估计成本。 Azure AI 支持显示标准部署和 Azure OpenAI 模型的成本。 由于这些成本可能会更改,因此我们会定期刷新成本计算。

LLM 和 SLM 的成本通过以下指标进行评估:

指标 说明
每个输入令牌的成本 100 万个输入令牌的标准部署成本
每个输出令牌的成本 100 万个输出令牌的标准部署成本
估计成本 每个输入令牌的成本和每个输出令牌的成本的总和,比率为 3:1。

Azure AI 还按如下所示显示成本指数:

索引 说明
成本指数 估计成本。 值越小越好。

嵌入模型的质量基准

嵌入模型的质量索引定义为面向信息检索、文档聚类分析和摘要任务的综合标准基准数据集的平均准确度分数。

查看特定于每个数据集的准确性分数定义的更多详细信息:

指标 说明
准确性 准确性是所处理的预测总数中正确预测的比例。
F1 分数 F1 分数是精准率和召回率的加权平均值,其中最佳值为 1(完美的精准率和召回率),最差值为 0。
平均精准率均值 (MAP) MAP 评估排名和推荐器系统的质量。 它衡量建议项的相关性,以及系统将更相关项目置于顶部的能力。 值的范围可以是 0 到 1,MAP 越高,系统就越能将相关项目放在列表的高位。
归一化折损累计增益 (NDCG) NDCG 评估机器学习算法根据相关性对项进行排序的能力。 它将排名与所有相关项位于列表顶部的理想顺序进行比较(其中 k 是列表长度),同时评估排名质量。 在我们的基准中,k=10(由 ndcg_at_10 指标表示),意味着我们会查看前 10 项。
精准率 精准率衡量模型正确标识特定类的实例的能力。 精度会显示机器学习模型在预测目标类时的正确频率。
斯皮尔曼相关系数 基于余弦相似性的斯皮尔曼相关性的计算方式是,首先计算变量之间的余弦相似性,然后对这些分数进行排名,再使用排名来计算斯皮尔曼相关性。
V 度量值 V 度量值是用于评估群集质量的指标。 V 度量值是同质性和完整性的调和平均值,确保两者之间的平衡,以获得有意义的分数。 可能的分数介于 0 和 1 之间,1 表示完全完整的标记。

分数的计算

个人得分

基准检验结果源自常用于语言模型评估的公共数据集。 在大多数情况下,数据托管在由数据创建者或管护者维护的 GitHub 存储库中。 Azure AI 评估管道从原始源下载数据,从每个示例行中提取提示,生成模型响应,然后计算相关的准确度指标。

提示构造遵循每个数据集的最佳做法,这些做法由介绍数据集和行业标准的论文定义。 在大多数情况下,每个提示都包含几个样本,即完整问题和答案的示例,以便为任务模型打好基础。 评估管道通过从评估中保留的部分数据对问题和答案进行采样来创建样本。