你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 在 Microsoft Foundry 模型的配额和限制中

本文包含快速参考和Azure OpenAI 配额和限制的详细说明。

配额范围

不会在租户级别强制执行配额和限制。 而是将配额限制的最高级别限定在Azure订阅级别。

区域配额分配

每分钟令牌数(TPM)和每分钟请求数(RPM)的限制是依据每个区域每个订阅以及每个模型或部署类型定义的。

例如,如果列出gpt-4.1 Global Standard 模型,其配额为500 万 TPM5,000 RPM,那么在每个区域,该模型或部署类型可用时,你的每个 Azure 订阅都有一个该数量的专用配额池。 在单个Azure订阅中,只要资源和模型部署分布在多个区域,就可以对给定模型和部署类型使用更大的 TPM 和 RPM 配额。

配额层级

我们正在引入配额等级,以改善 Foundry 模型体验,并减少因工作负载扩大而产生的摩擦。 配额现在会自动增加使用量,有助于避免速率限制错误,同时为所有用户创建更公平的环境。 将提供七个层:免费层和第 1 层到 6 层 - 第 6 层提供最高配额。 客户的初始分配层是根据他们当前使用该模型的情况以及他们与 Microsoft 的当前关系(例如企业协议(EA,即 Enterprise Agreement)或 MCA-E 状态)确定的。 

对我来说有什么变化?

以前,Foundry 仅为按需付费服务类型提供“默认”和“企业”配额级别,这两个级别之间有很大的差距,且增加配额的申请流程较为漫长。 在配额层中,所有用户都将被分配到一个层,该层的配额等于或高于他们以前的级别。 任何以前批准的配额增加都会保留,不会减少。 随着使用量的增长,Foundry 通过将用户移动到较高层来自动增加配额,并且仍可以通过配额形式请求其他配额。

客户如何自动从一个层移动到另一层,例如层更改条件是什么? 

自动层升级主要基于一段时间内 Foundry 模型的客户消费趋势。 如果客户的使用量增加,导致其当前配额层限制了使用 Foundry 模型的能力,系统将自动把客户升级到下一个更高的层级。 还将考虑客户与Microsoft的关系。 具有与 Microsoft 企业关系(包括 EA 和 MCA-E)的客户会被分配到更高的配额层级。 此外,Microsoft还将考虑客户的付款历史记录,以确定自动升级的资格。 

是否可以选择退出自动升级?

是的,你可以选择退出自动升级,无论消耗中的更改如何,你都会保留在当前层中。 我们认识到,一些客户使用配额来管理其计费。 但是,这不是Azure最佳做法,我们明白,如果你的系统配置为这样,我们不想破坏它。 可以在此处了解有关计费管理和最佳做法的详细信息: 成本管理

若要选择退出,可以将以下标志设置为 NoAutoUpgrade

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

注意

选择退出功能为预览版,将来可能会更改/删除。

是否可以请求更多配额?

是的,使用 配额请求表单 ,始终可以请求更多配额。 如果请求获得批准,则当前层将保持不变,但分配了更多的配额。

如何查看订阅的配额等级?

您目前可以使用 控制平面 API 检查您的配额级别:

curl -X GET \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

配额层级参考

第 1 层

模型名称 部署类型 每分钟请求数 (RPM) 每分钟标记数 (TPM)
codex-mini GlobalStandard 1,000 1,000,000
计算机使用预览 GlobalStandard 4,500 四十五万
gpt-4.1 DataZoneStandard 300 300,000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini DataZoneStandard 2000 2,000,000
gpt-4.1-mini GlobalStandard 5,000 5,000,000
gpt-4.1-mini 标准 6,000 6,000,000
gpt-4.1-nano DataZoneStandard 2000 2,000,000
gpt-4.1-nano GlobalStandard 5,000 5,000,000
gpt-4o DataZoneStandard 300 / 10秒 300,000
gpt-4o-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini DataZoneStandard 一万 1,000,000
gpt-4o-mini GlobalStandard 20,000 2,000,000
gpt-4o-mini-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini-实时预览 GlobalStandard 36 6,000
gpt-4o-实时预览 GlobalStandard 36 6,000
gpt-5 DataZoneStandard 3,000 300,000
gpt-5 GlobalStandard 一万 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini DataZoneStandard 300 300,000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano DataZoneStandard 2000 2,000,000
gpt-5-nano GlobalStandard 5,000 5,000,000
gpt-5-pro GlobalStandard 1,600 160,000
gpt-5.1 DataZoneStandard 3,000 300,000
gpt-5.1 GlobalStandard 一万 1,000,000
gpt-5.1 标准 3,000 300,000
gpt-5.1-chat GlobalStandard 一万 1,000,000
gpt-5.1-codex DataZoneStandard 3,000 300,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 一万 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 DataZoneStandard 3,000 300,000
gpt-5.2 GlobalStandard 一万 1,000,000
gpt-5.2-chat GlobalStandard 一万 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 一万 1,000,000
gpt-5.3-codex GlobalStandard 一万 1,000,000
gpt-5.4 DataZoneStandard 300 300,000
gpt-5.4 GlobalStandard 一万 1,000,000
gpt-5.4-pro GlobalStandard 160 160,000
gpt-5.4-mini GlobalStandard 1,000 1,000,000
gpt-5.4-nano DataZoneStandard 2000 2,000,000
gpt-5.4-nano GlobalStandard 5,000 5,000,000
gpt-5.5 DataZoneStandard 0 0
gpt-5.5 GlobalStandard 0 0
gpt-聊天-最新 GlobalStandard 一万 1,000,000
gpt-audio GlobalStandard 30000 / 10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 DataZoneStandard 3 -
gpt-image-1.5 GlobalStandard 9 -
gpt-image-2 DataZoneStandard 2 -
gpt-image-2 GlobalStandard 6 -
gpt-realtime GlobalStandard 200 100,000
模型路由器 DataZoneStandard 300 300,000
模型路由器 GlobalStandard 1,000 1,000,000
o1 DataZoneStandard 100 600,000
o1 GlobalStandard 500 3,000,000
o3 DataZoneStandard 300 300,000
o3 GlobalStandard 1,000 1,000,000
o3 深度研究 GlobalStandard 3,000 3,000,000
o3-mini DataZoneStandard 200 2,000,000
o3-mini GlobalStandard 500 5,000,000
o3-pro GlobalStandard 160 1,600,000
o4-mini DataZoneStandard 300 / 10秒 300,000
o4-mini GlobalStandard 1,000 1,000,000
text-embedding-3-large DataZoneStandard 1,000 1,000,000
text-embedding-3-large GlobalStandard 1000 / 10 秒 1,000,000
text-embedding-3-small DataZoneStandard 1,000 1,000,000
text-embedding-3-small GlobalStandard 1000 / 10 秒 1,000,000

配额和限制参考

以下部分提供了适用于 Azure OpenAI 的默认配额和限制的快速指南:

限制名称 限制值
每个区域、每个 Azure 订阅的 Azure OpenAI 资源 30.
默认 GPT-image-1 配额限制 每分钟 9 个请求
默认 GPT-image-1-mini 配额限制 每分钟 12 个请求
默认 GPT-image-1.5 配额限制 每分钟 9 个请求
默认 GPT-image-2 配额限制 每分钟 9 个请求
默认 Sora 配额限制 每分钟 60 个请求。
默认 Sora 2 配额限制 每分钟 2 个作业请求1
默认语音转文本音频 API 配额限制 每分钟 3 个请求。
每个请求的最大提示令牌数 根据模型而异。 有关详细信息,请参阅 Azure OpenAI 模型
每个资源的最大标准部署数 32.
最大微调模型部署 10.
每个资源的训练作业总数 100.
每个资源同时运行的最大训练作业数 标准和全球培训:3;
开发人员培训:5
排队的最大训练作业数 20.
每个资源的最大文件数(微调) 100.
每个资源的所有文件的总大小(优调) 1 GB。
最大训练作业时间(如果超出会导致作业失败) 720 小时。
最大训练作业大小 (tokens in training file) x (# of epochs) 20 亿。
每次上传的所有文件的最大大小 (Azure OpenAI On Your Data) 16 MB。
使用 时,数组中的最大输入数 /embeddings 2,048.
每次 /embeddings 请求的最大令牌数(所有输入的总和) 300,000.
最大消息数/chat/completions 2,048.
最大 /chat/completions 函数数 128.
工具的最大数量/chat/completions 128.
每个部署预配的吞吐量单位数上限 100,000.
每个助理或线程的最大文件数 使用 API 或 Microsoft Foundry 门户时为 10,000。
助手功能与微调任务所支持的最大文件大小 512 MB 通过 API

通过 Foundry 门户时为 200 MB。
每个资源的最大文件上传请求数 每秒 30 个请求。
所有助理上传文件的最大大小 200 GB。
助理令牌限制值 2,000,000 个令牌的限制。
GPT-4o 以及 GPT-4.1 每个请求的最大图像数(消息数组或对话历史记录中的图像数) 50.
GPT-4 vision-previewGPT-4 turbo-2024-04-09 默认最大令牌数 16.

请增加max_tokens参数值以避免响应被截断。 GPT-4o 最大令牌默认为 4,096。
API 请求2 中自定义标头的最大数目 10.
消息字符限制 1,048,576.
音频文件的信息大小 20 MB。

1 Sora 2 RPM 配额仅计算视频任务请求。 其他类型的请求不受速率限制。

2 我们的当前 API 最多允许 10 个自定义标头,这些标头通过管道传递并返回。 某些客户现在超过此标头计数,这会导致 HTTP 431 错误。 除了减少标头的大小之外,此错误没有解决方案。 在未来的 API 版本中,我们不会传递自定义标头。 我们建议客户在未来的系统体系结构中不依赖于自定义标头。

注意

配额限制可能会更改。

批量限制

限制名称 限制值
最大批处理输入文件数 -(无过期时间) 500
最大批处理输入文件数 -(已设置过期时间) 一万
最大输入文件大小 200 MB
最大输入文件大小 - 自带存储(BYOS) 1GB
每个文件的最大请求数 100,000

注意

批处理文件限制不适用于输出文件(例如 result.jsonl,和 error.jsonl)。 若要删除批处理输入文件限制,请使用 Batch 和 Azure Blob 存储

批处理配额

该表显示批次配额限制。 全局批处理的配额值以入队令牌表示。 提交文件以进行批处理时,将计算文件中的令牌数。 在批处理作业达到终态之前,这些令牌会计入你的总排队令牌限额中。

全局批处理

模型 企业和 MCA-E 默认 基于信用卡的每月订阅 MSDN 订阅 面向学生的Azure免费试用版
gpt-4.1 5B 200M 50M 90K N/A
gpt-4.1 mini 15B 1B 50M 90K N/A
gpt-4.1-nano 15B 1B 50M 90K N/A
gpt-4o 5B 200M 50M 90K N/A
gpt-4o-mini 15B 1B 50M 90K N/A
gpt-4-turbo 300兆字节 80M 40M 90K N/A
gpt-4 150MB 30百万 5百万 100K N/A
o3-mini 15B 1B 50M 90K N/A
o4-mini 15B 1B 50M 90K N/A
gpt-5 5B 200M 50M 90K N/A
gpt-5.1 5B 200M 50M 90K N/A

B = 十亿 |M = 百万 |K = 千

数据区批处理

模型 企业和 MCA-E 默认 基于信用卡的每月订阅 MSDN 订阅 面向学生的Azure免费试用版
gpt-4.1 500M 30百万 30百万 90K N/A
gpt-4.1-mini 15亿 100兆字节 50M 90K N/A
gpt-4o 500M 30百万 30百万 90K N/A
gpt-4o-mini 15亿 100兆字节 50M 90K N/A
o3-mini 15亿 100兆字节 50M 90K N/A
gpt-5 5B 200M 50M 90K N/A
gpt-5.1 5B 200M 50M 90K N/A

gpt-oss

模型 每分钟令牌数 (TPM) 每分钟请求数 (RPM)
gpt-oss-120b 5米 5公里

使用级别

全局标准部署使用Azure的全局基础结构。 他们动态地将客户流量路由到最佳可用性的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许使用Azure的全局基础结构,以动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 对于低到中等流量级别的客户,这种做法将启用更加一致的延迟。 使用水平较高的客户可能会在响应延迟方面看到更大的变化。

Azure OpenAI 使用层旨在为大多数流量低到中等级别的客户提供一致的性能。 每个使用层级都定义在可预测延迟下可预计的最大吞吐量(每分钟令牌数)。 当使用量保留在分配的层内时,延迟将保持稳定,响应时间是一致的。

如果超出使用层,会发生什么情况?

  • 如果请求吞吐量超过使用层(尤其是在高需求期间),则响应延迟可能会显著增加。
  • 延迟可能会存在波动,在某些情况下,甚至可能比在你的使用层级内进行操作时高出两倍以上。
  • 对于持续使用率较高或流量突发模式的客户而言,这种可变性最为明显。

如果遇到 429 个错误或注意到延迟可变性增加,应执行以下操作:

  • 请求增加配额:请访问Azure门户,请求提高订阅配额。
  • 请考虑升级到高级套餐 (PTU):对于延迟关键型或高流量工作负载,请升级到预配吞吐量单位(PTU)。 PTU 提供专用资源、保证的容量和可预测的延迟,即使在大规模范围内也是如此。 这是需要一致性能的任务关键型应用程序的最佳选择。
  • 监视使用情况:定期查看 Azure 门户中的使用情况指标,以确保在层限制内运行。 根据需要调整工作负荷或部署策略。

即使令牌使用指标显示在配额下方,也可能收到 429 个(请求过多) 响应。 请参阅为什么即使令牌使用指标低于配额,你也可能看到 429,获取发生这种情况的原因解释。

使用限额决定了使用量级别,超出该级别时,客户可能会在响应延迟方面遇到更大的变化。 每个模型都定义了客户的使用情况。 它指的是:对于给定的租户,在其所有区域、所有订阅、所有部署中所消耗的令牌总数。

注意

使用层仅适用于标准、数据区域标准和全局标准部署类型。 使用层不适用于全局批处理和预配置的吞吐量部署。

全局标准、数据区域标准和标准

模型 每月使用等级
gpt-5 320 亿个令牌
gpt-5-mini 1600 亿个令牌
gpt-5-nano 8000 亿个令牌
gpt-5-chat 320 亿个令牌
gpt-4 + gpt-4-32k (所有版本) 60 亿个令牌
gpt-4o 120 亿个令牌
gpt-4o-mini 850 亿个令牌
o3-mini 500 亿个令牌
o1 40 亿个令牌
o4-mini 500 亿个令牌
o3 50 亿个令牌
gpt-4.1 300 亿个令牌
gpt-4.1-mini 1500 亿个令牌
gpt-4.1-nano 5500 亿个令牌

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率限制相关的问题,最好使用以下技术:

  • 在应用程序中实现重试逻辑。
  • 避免工作负荷发生急剧更改。 逐渐增加工作负荷。
  • 测试不同的负载增加模式。
  • 增加指定给您部署的配额。 如有必要,请从另一个部署移动配额。

有关详细的最佳实践、带退避的重试代码示例以及 429 故障排除指南,请参阅 在 Microsoft Foundry Models 配额中管理 Azure OpenAI

请求配额增加

提交配额增加申请表,为Azure 销售的 Foundry 模型、Azure OpenAI 模型和 Anthropic 模型申请增加配额。 除了Anthropic模型,来自合作伙伴和社区的模型都不支持增加配额。

配额增加请求按照收到的顺序进行处理,优先考虑那些积极使用现有配额分配的客户。 不符合此条件的请求可能会被拒绝。

区域配额容量限制

可以在 Foundry 门户中按订阅的区域查看配额可用性。

若要以编程方式检查配额和容量,请参阅配额管理指南中的 以编程方式检查配额和容量 。 本部分介绍两个互补 REST API:用于根据限制检查消耗 的使用情况 API ,以及 模型容量 API ,用于按模型和区域检查可用部署容量。

注意

目前,Foundry 门户和容量 API 都返回 已停用 且不再可用于新部署的模型的配额和容量信息。