你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Microsoft Foundry 预配的吞吐量产品/服务是一种模型部署类型,可用于指定模型部署中所需的吞吐量。 然后 Foundry 会分配必要的模型处理容量,并确保随时可用。 将你请求的预配吞吐量用于由 Azure 直接销售的多种模型组合。 这些模型包括Azure OpenAI 模型和新推出的旗舰模型系列,如 Foundry 模型中的 Azure DeepSeek,随着时间推移,更多的模型系列载入。
预配的吞吐量提供:
| 好处 | 描述 |
|---|---|
| 更广泛的模型选择 | 访问最新的旗舰车型 |
| 灵活性 | 在给定的预配吞吐量配额下切换模型和部署。 |
| 大幅折扣 | 通过更灵活的预留选择提高预留利用率 |
| 可预测的性能 | 统一工作负荷的稳定最大延迟和吞吐量 |
| 分配的处理容量 | 一旦完成部署,无论是否实际使用,该吞吐量都会一直保持可用状态 |
| 成本节省 | 高吞吐量工作负荷可能会在相对于基于令牌的消耗时节省成本。 |
提示
- 购买 Microsoft Foundry 预配吞吐量预留时,您可以节省更多成本。
- 预配的吞吐量可按以下部署类型提供: 全局预配、 数据区域预配 和 区域预配。
先决条件
- 一个 Azure 订阅。 免费创建一个。
- 一个 Microsoft Foundry 项目,其模型使用预配的吞吐量部署类型进行部署。
- 在目标区域中分配给订阅的预配置吞吐量配额。
- Azure CLI(如果计划通过命令行创建部署)。
何时使用预配吞吐量
在有明确定义的可预测吞吐量和延迟要求时,请考虑预配的吞吐量部署,这通常适用于具有已知流量模式的生产应用程序。 预配的吞吐量也可用于实时或延迟敏感的应用程序。
了解 PTU 分配
预配吞吐量单位(PTU)和部署类型是预配吞吐量的构建基块。 以下部分介绍了它们的工作原理。
预配的吞吐量单位(PTU)
预配的吞吐量单位(PTU)是模型处理容量的通用单位,用于调整预配部署的大小,以实现处理提示和生成完成所需的吞吐量。 为订阅提供的吞吐量单元被授予为配额,并用于定义成本。 每个配额特定于一个区域,并定义可分配给该订阅和区域中的部署的 PTU 数上限。
共享 PTU 预留模式下的成本管理
使用 PTU 功能在共享 PTU 预留下无缝管理 Foundry 模型的成本。 但是,部署和吞吐量性能所需的 PTU 单元会根据所选模型动态定制。 若要详细了解 PTU 成本和模型延迟点,请参阅 了解与 PTU 关联的成本。
现有 PTU 预留会自动升级,以便客户在部署 Foundry 模型时提高效率和节省成本。 例如,假设你有一个已经购买了 500 个 PTU 的现有 PTU 预留。 使用 300 个单位用于 Azure OpenAI 模型,并且你选择还使用 PTU 来部署 Azure DeepSeek、Azure Llama 或其他在 Foundry 模型上具有 PTU 功能的模型。
如果将剩余的 200 PTU 用于 DeepSeek-R1,则 200 PTU 会自动共享预留折扣,而您预留的总使用量为 500 PTU。
如果使用 300 PTU 用于 DeepSeek-R1,则 200 PTU 自动享受预留折扣,而超出的 100 PTU 将按照 DeepSeek-R1 的小时费率收费。
若要了解如何通过 PTU 预留节省成本,请参阅 使用 Microsoft Foundry 的预配吞吐量预留来节省成本。
部署类型
在 Foundry 中创建预配部署时,“ 创建部署 ”对话框中的部署类型可以设置为全局预配吞吐量、数据区域预配吞吐量或区域预配吞吐量部署类型,具体取决于给定工作负荷的数据处理需求。
通过 CLI 或 API 在 Foundry 中创建部署配置时,sku-name 可以设置为 GlobalProvisionedManaged、DataZoneProvisionedManaged 或 ProvisionedManaged,取决于给定工作负荷的数据处理需求。
| 部署类型 | CLI 中的 sku-name |
|---|---|
| 全局预配吞吐量 | GlobalProvisionedManaged |
| 数据区域预配吞吐量 | DataZoneProvisionedManaged |
| 区域预配吞吐量 | ProvisionedManaged |
若要将以下Azure CLI示例命令改编为不同的部署类型,请更新 sku-name 参数以匹配要部署的部署类型。
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
管理容量和可用性
预配吞吐量的容量受区域可用性和实时需求的约束。 以下部分介绍了容量的工作原理以及如何找到它。
容量透明度
Azure直接销售的模型是备受追捧的服务,客户需求可能超过服务 GPU 容量。 Microsoft 努力为所有需求旺盛的区域和模型提供容量,但但某个区域总是有售罄的可能。。 此约束可以限制某些客户在所需区域中创建所需模型、版本或 PTU 数量的部署的能力,即使它们在该区域中具有可用配额也是如此。
重要
配额限制可在订阅和区域中部署的最大 PTU 数,但不能保证容量可用性。 容量在部署时分配。
一般来说:
- 配额不能保证容量。 配额对可在订阅和区域中部署的最大 PTU 数施加限制。
- 容量是在部署时分配 的,只要部署存在,就保留容量。 如果服务容量不可用,部署将失败。
- 使用有关配额和容量可用性的实时信息为方案选择适当的区域。
- 缩减规模或删除部署 会将容量释放回区域。 如果以后纵向扩展或重新创建部署,则不能保证容量可用。
区域容量指南
要查找部署所需的容量,请使用容量 API 或 Foundry 部署平台来获取关于容量可用性的实时信息。
在 Foundry 中,部署体验标识区域何时缺少部署模型所需的容量。 这会考量所需的模型、版本以及 PTU 的数量。 如果容量不可用,体验会指示用户选择备用区域。
有关部署体验的详细信息,请参阅 Foundry 预配入门指南。
使用 模型容量 API 以编程方式标识指定模型的最大大小部署。 API 会考虑你的配额以及该区域中的服务容量。
如果可接受的区域无法支持所需的模型、版本和/或 PTU,客户还可以尝试以下步骤:
- 尝试使用较少的 PTU 进行部署。
- 尝试在不同的时间部署。 容量可用性根据客户需求动态更改,以后可能会有更多容量可用。
- 确保所有可接受的区域中都提供配额。 模型容量 API 和 Foundry 体验在创建部署时会考虑返回的备用区域中的配额可用性。
监视利用率和性能
以下部分介绍如何监视利用率和处理容量限制。
监控容量
Azure Monitor 中的预配托管使用率 V2 指标以 1 分钟的增量度量给定的部署使用率。 所有预配的部署类型都经过优化,以确保接受的调用使用一致的模型处理时间(实际的端到端延迟取决于调用的特征)。
使用性能
预配的部署为你提供了一定数量的模型处理容量来运行给定的模型。
在所有预配的部署类型中,超过容量时,API 将返回 429 HTTP 状态错误。 快速响应使用户能够决定如何管理其流量。 用户可以将请求重定向到单独的部署、标准部署实例,或使用重试策略来管理给定的请求。 该服务继续返回 429 HTTP 状态代码,直到利用率下降到 100%以下。
处理 HTTP 429 响应
429 响应不是错误,而是设计中的一部分,告知用户给定部署在某个时间点得到充分利用。 通过提供快速故障响应,可以控制如何以最符合应用程序要求的方式处理这些情况。
响应中的 retry-after-ms 和 retry-after 标头指示下一次调用接受前等待的时间。 选择如何处理此响应取决于应用程序要求。 下面是一些注意事项:
- 请考虑将流量重定向到其他模型、部署或体验。 此选项是最低的延迟解决方案,因为收到 429 信号后即可执行该操作。 有关如何有效实现此模式的想法,请参阅此社区帖子。
- 如果您愿意接受更长的每次调用延迟,请实现客户端重试逻辑。 此选项提供每个 PTU 的最大吞吐量。 Foundry 客户端库包含用于处理重试的内置功能。
基于利用率的请求评估
在所有预配的部署类型中,每个请求都根据其提示大小、预期生成大小和模型单独评估,以确定其预期利用率。 此行为与标准部署形成鲜明对比,这些部署具有基于估计流量负载的 自定义速率限制行为 。 对于标准部署,如果流量未均匀分布,此自定义速率限制行为可能会在达到定义的配额值之前提前导致 HTTP 429 错误。
对于预配部署,我们通过使用漏桶算法的变体,将使用率保持在 100% 以下,同时允许出现一些流量突发。 高级逻辑如下所示:
每个客户都有一固定数额的容量可以在部署中使用。
发出请求时:
a. 当当前利用率超过 100% 时,服务将返回一个 429 状态码,并在
retry-after-ms标头中设置预计利用率降到 100% 以下所需的时间。B。 其他情况下,服务会结合提示令牌数(减去所有缓存令牌)和调用中的指定
max_tokens来估计满足请求所需的利用率增量变更。 客户根据其缓存令牌的大小,有机会获得其提示令牌最高100%的折扣。max_tokens如果未指定参数,服务将估计一个值。 当实际生成的令牌数量较少时,此估计可能会导致并发低于预期。 对于最高的并发性,请确保max_tokens该值尽可能接近真实生成大小。请求完成后,我们现在知道调用的实际计算成本。 为了确保准确的会计,我们使用以下逻辑更正利用率:
a. 如果估计了实际 >,则向部署的利用率添加差值。
B。 如果估计了实际 <,则减去差值。
根据部署的 PTU 数,总体利用率以连续速率递减。
注意
在利用率达到 100% 之前会接受调用。 短时间内可能允许利用率短暂略高于 100%,但从长期来看,你的流量将被限制在 100% 的利用率上限。
并发调用限制
可以在部署上实现的并发调用数取决于每个调用的形状(提示大小、 max_tokens 参数和类似因素)。 服务会持续接受请求,直到利用率达到 100%。 若要确定并发调用的大致数量,可以在 容量计算器中为特定调用形状计算每分钟的最大请求数。 如果系统生成的输出令牌数小于为 max_tokens 参数设置的输出令牌数,则预配的部署将接受更多请求。
为 Azure 直接销售的模型提供吞吐量能力
本部分列出了支持预配吞吐量功能的 Foundry 模型。 在表格所示的模型中使用你的 PTU 配额和 PTU 预留。
此表中不包含模型版本。 在 Foundry 门户中选择部署选项时,请检查每个模型的受支持版本。
区域预配的吞吐量部署选项因区域而异。
由 Azure 直接销售的新模型首先采用全局预配吞吐量部署选项。 稍后会提供“数据区域预配”选项。
PTU 按区域和产品/服务类型进行管理。 PTU 配额和任何预留必须位于你希望使用的区域和模式(全局、数据区域、区域)。
溢出是一项可选功能,用于管理预配部署的流量波动。 有关溢出的详细信息,请参阅 使用溢出为预配部署管理流量。
| 模型系列 | 模型名称 | 全局预配 | 预配的数据区域 | 区域预配 | 溢出功能 |
|---|---|---|---|---|---|
| Azure OpenAI | Gpt 5.5 | ✅ | ✅ | ✅ | ✅ |
| Gpt 5.4 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 5.3 codex | ✅ | ✅ | |||
| Gpt 5.2 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 5.2 codex | ✅ | ✅ | |||
| Gpt 5.1 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 5.1 codex | ✅ | ✅ | ✅ | ||
| Gpt 5 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 5 微型 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 迷你 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 nano | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o 迷你 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 3.5 Turbo | ✅ | ✅ | ✅ | ✅ | |
| o1 | ✅ | ✅ | ✅ | ✅ | |
| o3 | ✅ | ✅ | ✅ | ✅ | |
| o3 mini | ✅ | ✅ | ✅ | ✅ | |
| o4 mini | ✅ | ✅ | ✅ | ✅ | |
| Azure DeepSeek | DeepSeek-R1 | ✅ | |||
| DeepSeek-V3-0324 | ✅ | ||||
| DeepSeek-R1-0528 | ✅ | ||||
| Meta Llama | Llama-3.3-70B-Instruct | ✅ |
预配吞吐量功能的区域可用性
全局预配吞吐量模型可用性
| 地区 | gpt-5.5, 2026-04-24 | gpt-5.4, 2026-03-05 | gpt-5.3-codex, 2026-02-24 | gpt-5.2-codex, 2026-01-14 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-5.1-codex, 2025-11-13 | gpt-5, 2025-08-07 | gpt-5-mini, 2025-08-07 | o3, 2025-04-16 | o4-mini, 2025-04-16 | gpt-4.1, 2025-04-14 | gpt-4.1-mini, 2025-04-14 | gpt-4.1-nano, 2025-04-14 | o3-mini, 2025-01-31 | o1, 2024-12-17 | gpt-4o, 2024-11-20 | gpt-4o, 2024-08-06 | gpt-4o, 2024-05-13 | gpt-4o-mini, 2024-07-18 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| germanywestcentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| polandcentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 东南亚 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 南印度 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 西班牙中部 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| swedencentral | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandnorth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
注意
预配的版本 gpt-4:turbo-2024-04-09 当前仅限于文本。