你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Foundry 模型的预配吞吐量是什么?

Microsoft Foundry 预配的吞吐量产品/服务是一种模型部署类型,可用于指定模型部署中所需的吞吐量。 然后 Foundry 会分配必要的模型处理容量,并确保随时可用。 将你请求的预配吞吐量用于由 Azure 直接销售的多种模型组合。 这些模型包括Azure OpenAI 模型和新推出的旗舰模型系列,如 Foundry 模型中的 Azure DeepSeek,随着时间推移,更多的模型系列载入。

预配的吞吐量提供:

好处 描述
更广泛的模型选择 访问最新的旗舰车型
灵活性 在给定的预配吞吐量配额下切换模型和部署。
大幅折扣 通过更灵活的预留选择提高预留利用率
可预测的性能 统一工作负荷的稳定最大延迟和吞吐量
分配的处理容量 一旦完成部署,无论是否实际使用,该吞吐量都会一直保持可用状态
成本节省 高吞吐量工作负荷可能会在相对于基于令牌的消耗时节省成本。

提示

先决条件

  • 一个 Azure 订阅。 免费创建一个
  • 一个 Microsoft Foundry 项目,其模型使用预配的吞吐量部署类型进行部署。
  • 在目标区域中分配给订阅的预配置吞吐量配额。
  • Azure CLI(如果计划通过命令行创建部署)。

何时使用预配吞吐量

在有明确定义的可预测吞吐量和延迟要求时,请考虑预配的吞吐量部署,这通常适用于具有已知流量模式的生产应用程序。 预配的吞吐量也可用于实时或延迟敏感的应用程序。

了解 PTU 分配

预配吞吐量单位(PTU)和部署类型是预配吞吐量的构建基块。 以下部分介绍了它们的工作原理。

预配的吞吐量单位(PTU)

预配的吞吐量单位(PTU)是模型处理容量的通用单位,用于调整预配部署的大小,以实现处理提示和生成完成所需的吞吐量。 为订阅提供的吞吐量单元被授予为配额,并用于定义成本。 每个配额特定于一个区域,并定义可分配给该订阅和区域中的部署的 PTU 数上限。

共享 PTU 预留模式下的成本管理

使用 PTU 功能在共享 PTU 预留下无缝管理 Foundry 模型的成本。 但是,部署和吞吐量性能所需的 PTU 单元会根据所选模型动态定制。 若要详细了解 PTU 成本和模型延迟点,请参阅 了解与 PTU 关联的成本

现有 PTU 预留会自动升级,以便客户在部署 Foundry 模型时提高效率和节省成本。 例如,假设你有一个已经购买了 500 个 PTU 的现有 PTU 预留。 使用 300 个单位用于 Azure OpenAI 模型,并且你选择还使用 PTU 来部署 Azure DeepSeek、Azure Llama 或其他在 Foundry 模型上具有 PTU 功能的模型。

  • 如果将剩余的 200 PTU 用于 DeepSeek-R1,则 200 PTU 会自动共享预留折扣,而您预留的总使用量为 500 PTU。

  • 如果使用 300 PTU 用于 DeepSeek-R1,则 200 PTU 自动享受预留折扣,而超出的 100 PTU 将按照 DeepSeek-R1 的小时费率收费。

若要了解如何通过 PTU 预留节省成本,请参阅 使用 Microsoft Foundry 的预配吞吐量预留来节省成本

部署类型

在 Foundry 中创建预配部署时,“ 创建部署 ”对话框中的部署类型可以设置为全局预配吞吐量、数据区域预配吞吐量或区域预配吞吐量部署类型,具体取决于给定工作负荷的数据处理需求。

通过 CLI 或 API 在 Foundry 中创建部署配置时,sku-name 可以设置为 GlobalProvisionedManagedDataZoneProvisionedManagedProvisionedManaged,取决于给定工作负荷的数据处理需求。

部署类型 CLI 中的 sku-name
全局预配吞吐量 GlobalProvisionedManaged
数据区域预配吞吐量 DataZoneProvisionedManaged
区域预配吞吐量 ProvisionedManaged

若要将以下Azure CLI示例命令改编为不同的部署类型,请更新 sku-name 参数以匹配要部署的部署类型。

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06  \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged

管理容量和可用性

预配吞吐量的容量受区域可用性和实时需求的约束。 以下部分介绍了容量的工作原理以及如何找到它。

容量透明度

Azure直接销售的模型是备受追捧的服务,客户需求可能超过服务 GPU 容量。 Microsoft 努力为所有需求旺盛的区域和模型提供容量,但但某个区域总是有售罄的可能。。 此约束可以限制某些客户在所需区域中创建所需模型、版本或 PTU 数量的部署的能力,即使它们在该区域中具有可用配额也是如此。

重要

配额限制可在订阅和区域中部署的最大 PTU 数,但不能保证容量可用性。 容量在部署时分配。

一般来说:

  • 配额不能保证容量。 配额对可在订阅和区域中部署的最大 PTU 数施加限制。
  • 容量是在部署时分配 的,只要部署存在,就保留容量。 如果服务容量不可用,部署将失败。
  • 使用有关配额和容量可用性的实时信息为方案选择适当的区域。
  • 缩减规模或删除部署 会将容量释放回区域。 如果以后纵向扩展或重新创建部署,则不能保证容量可用。

区域容量指南

要查找部署所需的容量,请使用容量 API 或 Foundry 部署平台来获取关于容量可用性的实时信息。

在 Foundry 中,部署体验标识区域何时缺少部署模型所需的容量。 这会考量所需的模型、版本以及 PTU 的数量。 如果容量不可用,体验会指示用户选择备用区域。

有关部署体验的详细信息,请参阅 Foundry 预配入门指南

使用 模型容量 API 以编程方式标识指定模型的最大大小部署。 API 会考虑你的配额以及该区域中的服务容量。

如果可接受的区域无法支持所需的模型、版本和/或 PTU,客户还可以尝试以下步骤:

  • 尝试使用较少的 PTU 进行部署。
  • 尝试在不同的时间部署。 容量可用性根据客户需求动态更改,以后可能会有更多容量可用。
  • 确保所有可接受的区域中都提供配额。 模型容量 API 和 Foundry 体验在创建部署时会考虑返回的备用区域中的配额可用性。

监视利用率和性能

以下部分介绍如何监视利用率和处理容量限制。

监控容量

Azure Monitor 中的预配托管使用率 V2 指标以 1 分钟的增量度量给定的部署使用率。 所有预配的部署类型都经过优化,以确保接受的调用使用一致的模型处理时间(实际的端到端延迟取决于调用的特征)。

使用性能

预配的部署为你提供了一定数量的模型处理容量来运行给定的模型。

在所有预配的部署类型中,超过容量时,API 将返回 429 HTTP 状态错误。 快速响应使用户能够决定如何管理其流量。 用户可以将请求重定向到单独的部署、标准部署实例,或使用重试策略来管理给定的请求。 该服务继续返回 429 HTTP 状态代码,直到利用率下降到 100%以下。

处理 HTTP 429 响应

429 响应不是错误,而是设计中的一部分,告知用户给定部署在某个时间点得到充分利用。 通过提供快速故障响应,可以控制如何以最符合应用程序要求的方式处理这些情况。

响应中的 retry-after-msretry-after 标头指示下一次调用接受前等待的时间。 选择如何处理此响应取决于应用程序要求。 下面是一些注意事项:

  • 请考虑将流量重定向到其他模型、部署或体验。 此选项是最低的延迟解决方案,因为收到 429 信号后即可执行该操作。 有关如何有效实现此模式的想法,请参阅此社区帖子
  • 如果您愿意接受更长的每次调用延迟,请实现客户端重试逻辑。 此选项提供每个 PTU 的最大吞吐量。 Foundry 客户端库包含用于处理重试的内置功能。

基于利用率的请求评估

在所有预配的部署类型中,每个请求都根据其提示大小、预期生成大小和模型单独评估,以确定其预期利用率。 此行为与标准部署形成鲜明对比,这些部署具有基于估计流量负载的 自定义速率限制行为 。 对于标准部署,如果流量未均匀分布,此自定义速率限制行为可能会在达到定义的配额值之前提前导致 HTTP 429 错误。

对于预配部署,我们通过使用漏桶算法的变体,将使用率保持在 100% 以下,同时允许出现一些流量突发。 高级逻辑如下所示:

  1. 每个客户都有一固定数额的容量可以在部署中使用。

  2. 发出请求时:

    a. 当当前利用率超过 100% 时,服务将返回一个 429 状态码,并在 retry-after-ms 标头中设置预计利用率降到 100% 以下所需的时间。

    B。 其他情况下,服务会结合提示令牌数(减去所有缓存令牌)和调用中的指定 max_tokens 来估计满足请求所需的利用率增量变更。 客户根据其缓存令牌的大小,有机会获得其提示令牌最高100%的折扣。 max_tokens如果未指定参数,服务将估计一个值。 当实际生成的令牌数量较少时,此估计可能会导致并发低于预期。 对于最高的并发性,请确保 max_tokens 该值尽可能接近真实生成大小。

  3. 请求完成后,我们现在知道调用的实际计算成本。 为了确保准确的会计,我们使用以下逻辑更正利用率:

    a. 如果估计了实际 >,则向部署的利用率添加差值。

    B。 如果估计了实际 <,则减去差值。

  4. 根据部署的 PTU 数,总体利用率以连续速率递减。

注意

在利用率达到 100% 之前会接受调用。 短时间内可能允许利用率短暂略高于 100%,但从长期来看,你的流量将被限制在 100% 的利用率上限。

预配置吞吐量利用率的漏桶算法示意图,展示了传入请求如何增加利用率,以及容量如何根据部署的PTU计数减少。

并发调用限制

可以在部署上实现的并发调用数取决于每个调用的形状(提示大小、 max_tokens 参数和类似因素)。 服务会持续接受请求,直到利用率达到 100%。 若要确定并发调用的大致数量,可以在 容量计算器中为特定调用形状计算每分钟的最大请求数。 如果系统生成的输出令牌数小于为 max_tokens 参数设置的输出令牌数,则预配的部署将接受更多请求。

为 Azure 直接销售的模型提供吞吐量能力

本部分列出了支持预配吞吐量功能的 Foundry 模型。 在表格所示的模型中使用你的 PTU 配额和 PTU 预留。

  • 此表中不包含模型版本。 在 Foundry 门户中选择部署选项时,请检查每个模型的受支持版本。

  • 区域预配的吞吐量部署选项因区域而异。

  • 由 Azure 直接销售的新模型首先采用全局预配吞吐量部署选项。 稍后会提供“数据区域预配”选项。

  • PTU 按区域和产品/服务类型进行管理。 PTU 配额和任何预留必须位于你希望使用的区域和模式(全局、数据区域、区域)。

  • 溢出是一项可选功能,用于管理预配部署的流量波动。 有关溢出的详细信息,请参阅 使用溢出为预配部署管理流量

模型系列 模型名称 全局预配 预配的数据区域 区域预配 溢出功能
Azure OpenAI Gpt 5.5
Gpt 5.4
Gpt 5.3 codex
Gpt 5.2
Gpt 5.2 codex
Gpt 5.1
Gpt 5.1 codex
Gpt 5
Gpt 5 微型
Gpt 4.1
Gpt 4.1 迷你
Gpt 4.1 nano
Gpt 4o
Gpt 4o 迷你
Gpt 3.5 Turbo
o1
o3
o3 mini
o4 mini
Azure DeepSeek DeepSeek-R1
DeepSeek-V3-0324
DeepSeek-R1-0528
Meta Llama Llama-3.3-70B-Instruct

预配吞吐量功能的区域可用性

全局预配吞吐量模型可用性

地区 gpt-5.52026-04-24 gpt-5.42026-03-05 gpt-5.3-codex2026-02-24 gpt-5.2-codex2026-01-14 gpt-5.22025-12-11 gpt-5.12025-11-13 gpt-5.1-codex2025-11-13 gpt-52025-08-07 gpt-5-mini2025-08-07 o32025-04-16 o4-mini2025-04-16 gpt-4.12025-04-14 gpt-4.1-mini2025-04-14 gpt-4.1-nano2025-04-14 o3-mini2025-01-31 o12024-12-17 gpt-4o2024-11-20 gpt-4o2024-08-06 gpt-4o2024-05-13 gpt-4o-mini2024-07-18
australiaeast -
brazilsouth -
canadacentral -
canadaeast -
centralus -
eastus
eastus2 -
francecentral -
germanywestcentral -
italynorth -
japaneast -
koreacentral -
northcentralus
norwayeast -
polandcentral -
southafricanorth -
southcentralus -
东南亚 -
南印度 -
西班牙中部 -
swedencentral -
switzerlandnorth -
switzerlandwest -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

注意

预配的版本 gpt-4turbo-2024-04-09 当前仅限于文本。