你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
当前查看:新版 Foundry 门户 - 切换到经典版 Foundry 门户
Microsoft Foundry 中的预配吞吐量部署支持按小时计费,适用于灵活的短期使用;同时也支持 Azure 预留,适用于持续运行的生产工作负载,并可享受折扣价格。 本文介绍了 PTU 计费的工作原理,帮助你在每小时计费和Azure预留之间进行选择,并介绍如何监视和管理预留成本。
如果您刚开始接触预配吞吐量,请先了解 什么是 Foundry 模型的预配吞吐量?。 若要估算工作负载所需的 PTU 数量,请参阅 确定工作负载的 PTU 大小。 当你准备好创建第一个部署时,请参阅 预配部署入门。
PTU 计费的工作原理
预配的吞吐量单位(PTU) 是模型处理容量的通用单位。 创建预配的部署时,指定要分配的 PTU 数。 Foundry 会为该部署预留并保有 PTU 容量,并且无论该部署是否正在处理请求,都会按小时计费。 换句话说,会根据部署的预配吞吐量单位(PTU)数(而不是消耗的令牌数)按小时计费。
PTU 计费具有两个重要特征:
- 按部署的容量而不是令牌消耗计费:与按令牌付费计费不同,需要为预留容量付费。 成功完成的请求会消耗该容量,但无论实际利用率如何,都会按已部署的 PTU 总数计费。
- 独立于模型:PTU 配额在区域和部署类型中的所有受支持模型中共享。 同一个 PTU 池可用于部署任何受支持的模型。 不为特定模型购买 PTU。 每个预配部署类型的 PTU 配额显示在 Foundry 门户的 “配额 ”页中。
预配部署支持两种计费模式:适用于灵活、短期使用的按小时计费,以及适用于持续性生产工作负载且可享受折扣费率的Azure 预留。
注释
在 2024 年 8 月自助更新之前加入的 Foundry 预配客户使用名为“承诺”模型的购买模型。 这些客户可以继续同时使用承诺模式以及按小时计费/预留计费。 承诺模型不适用于 2024 年 8 月之后引入的新客户或某些模型。 有关承诺购买模型和共存和迁移选项的详细信息,请参阅 Foundry 预配的 8 月更新。
每小时计费
预配部署(区域、数据区和全局)根据已部署的 PTU 数量,按小时费率($/PTU/时)计费。 例如,300 PTU 部署的收费为:每小时费率 × 300。
如果某个部署仅运行了不到一小时,则按比例计费:
- 存在 15 分钟的部署按每小时费率的 1/4 收费。
- 如果调整部署规模,计费会立即按新的 PTU 数量进行调整。
无法暂停预配的部署。 仅当删除部署时,计费才会停止。
有关模型系列的当前 PTU 定价,请参阅 Azure OpenAI 定价、Llama 模型定价和 DeepSeek 模型定价。
何时使用每小时计费
每小时计费适用于短期方案,例如:
- 在决定预留之前,对模型质量或性能进行基准评测。
- 为黑客马拉松等活动临时扩展 PTU 容量。
每小时计费 不适用于 生产中的部署(改用预留)。 出于以下原因,您不应随着流量变化而使用按小时计费对生产部署进行扩容和缩容:
- Cost:与按小时计费相比,Azure 预留可提供显著折扣。 采用预留方式时,将部署规模维持在足以支撑全部生产负载的水平,通常比根据传入流量对部署进行持续按小时计费的扩缩容更便宜。
- 容量风险:未使用的配额不能保证在想要纵向扩展 PTU 部署时容量可用。 预配容量是有限的动态更改资源。 缩容/扩容策略可能会让你在最需要容量的时候反而没有足够的容量。
缩放预配的部署
可以随时在 Foundry 门户中或通过 API 增加或减少现有预配部署的 PTU 计数。 计费会立即根据新的 PTU 数量进行调整。
缩放时请记住以下约束:
- 扩容需要有可用容量:在调整大小时,能否增加额外 PTU 取决于当时是否有可用容量。 如果区域中的 PTU 容量不足以容纳新的 PTU 计数,则纵向扩展会失败。 在规划纵向扩展事件之前,请使用 Foundry 门户部署体验 或 模型容量 API 验证容量。
- 永久缩减释放容量:减少部署的 PTU 计数会将释放的容量释放回区域池。 如果以后纵向扩展,则无法保证同一容量可用。
- 计费立即调整:从调整完成时起,系统将按新的 PTU 数量计费,并按分钟比例计算。
- 预留容量不受部署缩容的影响:如果某个部署受预留容量覆盖,并且你将其缩容,则预留容量仍将保持其原始 PTU 数量。 部署低于预留数量的 PTU 会导致预留覆盖范围未使用;超出数量的已部署 PTU 按每小时费率计费。 请参阅 预留超额示例。
用于预配吞吐量的 Azure 预留
Azure 预留是一种按期限提供折扣的机制,被 Azure Compute 和 Cosmos DB 等许多 Azure 产品采用。 Azure 预配吞吐量预留(区域、数据区域和全局)是一种适用于 PTU 计费计量器的计费折扣,而不适用于创建部署等服务交互。 通过预留,您承诺在一个月或一年的期限内为固定数量的 PTU 付费,作为回报,您将享受折扣后的有效 $/PTU/hr 费率。 折扣使预留比持续工作负荷的长期每小时计费更具成本效益。
预留和部署是松散耦合的:可以独立创建部署和预留。 这种灵活性使你可以更改资源、订阅或部署,而无需更改计费构造。
Important
由于模型部署的容量可用性是动态的,并且会因区域和模型而经常变化,因此请始终先创建部署,然后再购买 Azure 预留,以涵盖您已部署的 PTU。 这种方法可避免你为无法部署的 PTU 作出预留承诺,并确保你享受全部预留折扣。
预订须知
| 主题 | 详细信息 |
|---|---|
| 在 Azure 门户中购买 | Azure 预留是通过 Azure 门户中的“预留”页购买的。 |
| 按部署类型购买 | 全局预配、数据区域预配和区域预配预留是单独的购买。 全局预配预留无法涵盖区域预配部署。 |
| 全局预留不是特定于区域的 | 一个全局预留可以应用于跨多个区域的全局 PTU 部署,前提是有足够的预留单位来覆盖部署的总 PTU。 如果您愿意,仍然可以按区域分别购买全局预留容量,以保持一一对应关系。 |
| 全局预留可以合并 | 由于全局预留有利于跨多个区域的部署,因此可以合并到单个预留中。 例如,如果在美国东部有 50 个全球 PTU,西欧有 100 个,在澳大利亚东部有 200 个,则可以在任何区域中为 350 个单位购买单个全局预留,以覆盖所有三个区域的所有部署。 |
| 期限承诺的折扣费率 | 作为承诺 1 个月或 1 年使用期限的交换条件,您可享受比按小时计费更优惠的有效 $/PTU/hr 费率。 折扣因型号系列和期限长短而有所不同。 有关当前费率,请参阅通过 Microsoft Foundry 预配吞吐量预留节省成本,或使用Azure 定价计算器。 |
| 可灵活设定范围 | 预留的范围可以涵盖单个资源组或订阅、管理组中的订阅或计费帐户中的所有订阅。 在所涵盖范围内,所有匹配的部署共同享受此折扣,最多可达该预留的 PTU 数量。 请参阅 预留匹配的工作原理。 |
| 重叠和可更新 | 可以购买新的预留,以覆盖与现有预留相同的范围,从而使新的已预配部署享受折扣。 随时可以更新现有预留的范围,而不会受到处罚。 例如,可以更新现有预留的范围,以涵盖新的订阅。 |
| 与模型无关 | 预留折扣适用于在匹配范围内部署的任何受支持的模型。 不购买特定模型的预留。 当您向部署组合中添加新模型时,如果该模型在适用范围内,现有预留将自动适用于该模型。 |
| 立即处于活动状态 | 购买后,预留一旦进入 活动 状态,预留折扣就会应用于符合条件的部署。 购买和折扣激活之间没有延迟。 |
| 超额按小时计费 | 如果范围内部署的 PTU 超出了预留数量,则会按标准每小时费率对多余的 PTU 收费。 请参阅 预留超额示例。 |
| 预留不保证容量 | 购买预留并不会为该服务预留容量。 先创建部署以确认有可用容量,然后再购买预留容量。 |
| 可取消,但有一定限制 | 可以在购买后取消或交换预留,但这些操作可能会产生费用。 有关详细信息,请参阅根据工作负载的变化调整预留。 |
若要验证购买预留后你的现有部署是否已包含在预留中,请参阅 检查你的部署是否已包含在预留中。
预留匹配的工作原理
当运行中的部署与预留之间的三个条件均匹配时,预留折扣将自动适用:
- 部署类型:部署类型(全局、数据区域或区域)必须匹配。
- 区域:对于数据区域和区域部署,部署的Azure区域必须与预留区域匹配。 全局预留不特定于区域,并且单个全局预留可以涵盖跨多个区域的全局 PTU 部署,前提是部署的 PTU 总数不超过预留数量。
- 范围:预留范围必须包括该部署所在的订阅或资源组。
匹配不是根据模型或部署 ID 进行的。 满足这三个条件的多个部署会共享同一个预留容量,最多可达其 PTU 数量。
预留超额示例
假设你为某个订阅购买了 500 PTU 的全局预配预留(在“美国东部 2”区域购买)。 由于这是全局预留,因此它覆盖预留范围内所有区域中的符合条件的全局 PTU 部署,不仅限于美国东部 2。 如果现有的全局部署已在不同区域的 Azure OpenAI 模型上占用 300 个 PTU,并且您在澳大利亚东部添加了 DeepSeek-R1 全局部署:
| 新增 DeepSeek PTU | 已包含在预留中 | 小时超额用量 |
|---|---|---|
| 200 PTU | 全部 200 个(预留中剩余 200 个 PTU) | 无:消耗的 PTU 总数 = 500 |
| 300 PTU | 200 (预留已用尽,总计 500 人) | 100 个 PTU 将按小时计费,直到部署规模减少到 500 个 PTU,或者创建新的预留以覆盖剩余的 100 个 PTU。 |
折扣会在范围内的所有模型之间自动共享。 添加新模型时,无需重新配置预留。
Important
购买预留所需的 Azure 角色和租户策略要求,与创建 Foundry 部署或资源所需的要求不同。 在需要购买预留之前,先确认您已获得相应授权。 有关角色要求和购买步骤 ,请参阅 Foundry 预配吞吐量预留 。
若要购买或管理预留,请转到 Azure 门户中的 Reservations 页面。
有关在预留中应包含多少个 PTU 的指导,请参阅 确定 Foundry 预配吞吐量预留的大小。
调整 Foundry 配置的吞吐量预留大小
预留采购中的 PTU 数量独立于您的配额分配以及当前部署中已使用的 PTU 数量。 您可以按所需购买任意数量 PTU 的预留,但只有属于该预留范围内的已部署 PTU 才能享受折扣。 若要防止过度购买:
- 在购买预留之前创建部署:这样可以确认所需区域和模型有可用容量。 在部署之前购买预留容量,可能会导致您承诺购买实际上无法使用的 PTU。
- 将预留数量与已部署的 PTU 匹配:将预留大小与预留范围内当前部署的 PTU 保持一致。 超出预留数量范围内的任何 PTU 均按小时费率收费。 请参阅 预留超额示例。
- 按部署类型购买单独的预留:全局、数据区域和区域部署的预留不可互换。
- 利用作用域覆盖多个部署:可以购买新的预留,以覆盖同一作用域内的其他部署。 还可以随时更新现有预留的范围,而不会受到处罚。
购买预定
部署到位并确定所需的 PTU 数量后,请从 Azure 门户中的 Reservations 页购买预留。
有关购买和管理 Foundry 预配吞吐量预留(包括角色要求、范围选择和期限选项)的分步指导,请参阅 通过 Microsoft Foundry 预配吞吐量预留节省成本。
监控预留和 PTU 使用情况
监视预留利用率有助于识别过度预配、捕获意外计费以及规划将来的容量需求。
跟踪预留利用率和成本
使用这些Microsoft 成本管理资源来跟踪和分析预留使用情况:
| 您想要做什么 | 文章 |
|---|---|
| 查看您的保留 PTU 中有多少百分比正在各项部署中使用 | 查看 Azure 预留使用情况 |
| 查看购买历史记录和任何退款活动 | 查看 Azure 预留购买和退款交易记录 |
| 了解预留实例摊销成本的影响,从而更清晰地查看按部署计费情况 | 查看摊销权益成本 |
| 跨团队或项目分配预留成本,以便进行内部成本归因 | Azure 预留费用回充 |
| 设置自动续订以防止预留过期和维护折扣率 | 自动续订Azure订阅 |
检查您的部署是否已被覆盖
若要验证预留是否完全涵盖预配的部署,请使用 Azure 门户中的 Reservations 页:
打开 “预留 ”页,然后选择一个预留以查看其详细信息。
查看 利用率(%) 值:
- 100%:匹配的部署正在消耗全部预留数量;没有任何预留 PTU 处于未使用状态。
- 低于 100%:某些保留的 PTU 与正在运行的部署不匹配。 这可能意味着过度购买,或者部署被删除而不取消预留。
请与您已部署的 PTU 进行对照。 该预留适用于范围内所有匹配的部署,最多可覆盖其 PTU 数量上限。 任何超出该数量的已部署 PTU 均按小时费率计费。 请参阅 预留匹配的工作原理 和 预留超额示例。
有关按部署细分的覆盖率和利用率趋势明细,请参阅 查看 Azure 预留利用率。
根据工作负载变化调整预留
你可以在 Azure 门户的 “Reservations”页中管理所有预留。 随着已预配部署规模的扩大或缩减,可通过以下几种方式调整预留:
添加覆盖范围:为同一范围购买其他预留,以涵盖新部署。
取消范围:在 Azure 门户中取消预留。 取消可能会产生提前终止费用。 有关取消条款和任何适用费用,请参阅 Azure 预留的兑换和退款。
换购范围:在 Azure 门户中换购预留,以更改其期限或 PTU 数量。 交换会重置预留期限。 由于 PTU 预留是按部署类型划分的,因此不支持不同部署类型之间的交换(例如,从全局预配交换到区域预配)。 若要将覆盖范围移动到其他部署类型或区域,请取消现有预留,并为目标类型和区域购买新的预留。 有关资格条件和费用的详细信息,请参阅 Azure 预留的换购和退款。
更新范围:随时更改现有预留的范围,而不会受到处罚。 例如,将覆盖范围扩展到新订阅。 请参阅 更改预留的范围。
禁用自动续订:如果不再需要预留,请关闭自动续订,以防止其在期限结束时续订。 请参阅 自动续订 Azure 预留。