你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure SRE 代理的定价和计费

了解 Azure SRE 代理如何计费以及您可以在 Azure 帐单中看到的内容。

两个计费组件是常开流(固定)和激活流(可变,基于令牌)。 活动流衡量你的智能体消耗的大语言模型 (LLM) 令牌。 根据您的代理配置的模型,每种令牌类型均按固定的 Azure 代理单元(AAU)速率进行计量。

可以在门户的设置>代理使用中监控消耗情况。

计费原理

Azure SRE 智能体费用基于 AAU,这是所有预构建 Azure 智能体使用的标准化智能体处理度量单位。 你的月度帐单包含两种类型的费用:始终在线流和活动流。

永远在线流(固定成本)

当你创建智能体时,只要它存在,就会按固定费率计费。

组件 费率
始终启用流 每个代理工作小时 4 个 AAU

始终在线流并不意味着智能体正在主动处理工作。 它表示保持智能体预配和可用的基线成本。 持续计费从代理创建开始并持续到代理被删除。

活动流(可变成本)

每次智能体执行工作时,都会消耗活动流 AAU。 工作示例可能是用户以交互方式提问、自动化触发任务还是异步操作在后台运行。 无论工作是如何启动的,只要代理在主动处理,就算作活动流。

令牌如何成为分配额度单位 (AAU)

每次智能体执行工作时,都会消耗 LLM 令牌。 每种代币类型都会按照下表所示的速率分别计量。

令牌类型 它度量的内容
输入 发送到模型的标记(提示、工具输出和上下文)。
输出 模型生成的令牌(响应和推理)。
缓存读取 来自提示缓存(重复上下文)的令牌。
缓存写入 写入提示缓存以供将来复用的令牌。

任务的总活动流 AAU 等于所有四种令牌类型的 AAU 总和。

按模型计算的 AAU 费率

下表显示了每 100 万个令牌使用的 AU 数。

型号 输入 输出 缓存读取 缓存写入
克洛德作品4.6 100 AAU 500个AAU 10 个AAU 125 AAU
GPT 5.3 Codex 35 AAUs(分配的数量单位) 280 AAU 3.5 AAU
GPT 5.2 35 AAUs(分配的数量单位) 280 AAU 3.5 AAU

费率为每 100 万个令牌。 自 2026 年 4 月 15 日起生效。 将来可能会添加更多模型和提供程序。 AAU 费率由 Azure 设置,可能会在发布新模型时更新。

关键详细信息

  • 仅处理时间计数: 代理等待响应的时间不会作为活动流计费。
  • 活动流每月都会重置:AAU 消耗计数器在每个日历月开始时重置。
  • 提供程序在智能体级别设置:模型提供程序(Anthropic、OpenAI 和其他)在智能体的设置中进行配置。 相应的模型确定了 AAU 费率。

按任务类型排列的活动流

消耗的令牌数量(决定计费的 AAU)取决于任务的复杂性。 更复杂的任务需要更多的 LLM 推理步骤、工具调用和数据处理,这意味着更多的令牌。

下表显示了令牌消耗如何在常见场景中转换为 AAU。

情景 输入令牌 输出标记 缓存读取 缓存写入 Claude Opus 4.6 AAUs GPT 5.3 Codex AAU 示例
快速问题 约 20K 约 2K ~15K 约5K ~3.8 ~1.6 “显示我最近的警报。
事件调查 大约20万 ~15K 约 150K ~50K ~35.5 ~13.7 来自 Azure Monitor 的自动事件。
完全修正 ~500K ~40K 约 400K ~100K 约 86.5 ~33.9 “诊断并修复失败的部署。

数学的工作原理

下表使用快速问题行的数字展示了前述 Claude Opus 4.6 示例的计算过程。

令牌类型 Tokens 每百万单位的比率 AAUs(可分配资产单位)
输入 20K 100 2.0
输出 2K 500 1.0
缓存读取 15K 10 0.15
缓存写入 5K 125 0.625
Total 3.775 AAU

小窍门

若要使活动流成本可预测,请设置 设置>代理消耗中的每月 AAU 分配限制。

监控成本

在 SRE 智能体门户中

转到 设置>代理使用情况 以查看您的使用情况:

  • 每月 AAU 限额:显示始终在线流和活动流分配组合。
  • 活动流消耗总量: 显示将当前使用情况与限制进行比较的进度栏。
  • 每日活动流消耗量: 显示一个条形图,显示当前月份每天的 AAU 使用情况。
  • 令牌使用分析: 显示您在各类别(输入、输出、缓存读取和缓存写入)中的总令牌消耗,以便您可以准确查看您的 AAUs 去向。

设置活动流支出限制

选择 “更改 AAU 分配 ”以设置每月活动的流 AAU 限制(最低为 500,最大 1,000,000 个 AU)。 此限制仅适用于活动流。 只要智能体存在,始终在线计费就会继续。

  • 当您的代理达到活动流限制时,它将变得无法进行聊天和操作,直到下个月。 “始终开启”费用在该月余下时间将继续产生。
  • 可以随时增加或减少分配。
  • 涨幅 立即生效。 如果将限制设置为高于当前消耗量,聊天和操作将立即恢复。
  • 减少当前消耗量的措施将于下个月生效。 在此之前,代理仅在始终运行流中运行。

按操作划分的计费影响

Action 活动流 Always-on 下个月将恢复
设置预算上限(达到上限) 停止 仍然计费 在月份开始时自动重置。
停止代理 停止 仍然计费 在“设置”>“基本信息”中手动选择“开始”。
删除代理 停止 停止 创建新代理

在 Microsoft 成本管理中

有关多个代理和资源的详细计费明细,请使用 Azure 门户中 Microsoft成本管理

成本优化技巧

策略 影响 操作方法
将上下文添加到代理。 浪费更少的令牌。 添加技能、知识和文档,使智能体保持有据可依且简洁。 过去交互中的持久内存可随时间推移提高效率。
使用响应计划筛选事件。 减少不必要的工作。 使用 响应计划 按严重性、服务或关键字筛选 Azure Monitor 警报。 代理只调查符合条件的事件。
使用计划的任务进行批处理工作。 减少运行次数。 计划任务设定为每天或每周运行,而不是持续轮询。
在自动执行之前在聊天中进行测试。 避免浪费运行。 请先在聊天或操场中试用提示。 配置错误的自动化程序反复运行,浪费 AAU。
停止空闲智能体。 消除活动流。 转到“设置基本信息”>并选择“停止”。 代理保留其配置,但停止所有活动流。 持续成本会一直存在,直到被删除。
删除未使用的代理。 免除所有费用。 Azure SRE 代理 网页上,打开代理并转到 “设置>基本>删除代理”。 所有计费都会立即停止。

常见问题解答

代理如何通过令牌计算 AAU?

每次代理执行工作时,它都会跟踪所有四种令牌类型消耗的 LLM 令牌,并按配置的模型的 AAU 费率对其进行计量。 可以在设置>代理消耗中看到 AAU 用量。

我选择的提供商是否会影响我的成本?

模型提供商(Anthropic、OpenAI 和其他)在代理级别进行设定,并决定适用的 AAU 费率。 不同的模型具有不同的费率。 有关当前费率,请参阅 AAU 费率表

应该选择哪个模型?

Claude Opus 4.6 的 AAU 率较高,但通常能够在推理步骤较少的情况下进行更深入的调查。 对于复杂的事件调查和根本原因分析,Opus 通常用更少的工具调用得出结论,这可以抵消更高的每令牌费率。

GPT 模型是一个不错的选择,适用于更简单、大批量的任务,例如定期合规性检查,其中成本效益比深入程度更为重要。 可以随时在“设置基本信息”>中更改模型提供程序并比较结果。

代理等待我响应时是否收费?

否。 只有代理在主动处理任务时才会算作活动流。 如果代理要求批准并等待,则不会对等待时间进行计费。

什么被算作是活动流?

每当代理主动执行工作时,便被视为活跃流程,例如以下示例:

  • 交互式提示:用户在聊天中询问代理问题。
  • 自动化:计划的任务、事件响应计划或其他自动触发器。
  • 异步操作:后台调查、报表生成或修正任务。

在所有情况下,智能体将消耗的令牌计量为 AAU。

如果停止代理,会发生什么情况?

停止的智能体无法监视资源或响应提示,但它仍然会产生固定的始终在线成本。 停止时不消耗活动流 AAU。 若要停止代理,请转到“设置基本信息>”并选择“停止”。 若要恢复,请选择“从同一页 开始 ”。 若要完全停止所有计费,请删除代理。

一个代理是否可以处理多个工作负荷?

是的。 单个代理可以监视其配置范围内的多个资源。 与部署单独代理相比,将工作负荷整合到单个代理下可降低持续成本。

是否有免费层?

否。 Azure SRE 智能体费用从智能体创建开始。 有关当前费率,请参阅 Azure 定价计算器

所有区域中的定价是否相同?

有关区域中的当前定价,请查看 Azure 定价计算器