你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。
配额范围
不会在租户级别强制执行配额和限制。 而是将配额限制的最高级别限定在 Azure 订阅级别。
区域配额分配
每分钟的令牌数(TPM)和每分钟请求数(RPM)的限制被定义为按区域、按订阅以及按模型或部署类型。
例如,如果gpt-4.1列出全局标准模型,配额为 500 万 TPM 和 5,000 RPM,则每个可用模型或部署类型的区域都有自己的专用配额池,每个 Azure 订阅的配额池为该数量。 在单个 Azure 订阅中,只要资源和模型部署分布在多个区域,就可以对给定的模型和部署类型使用更大的 TPM 和 RPM 配额。
配额等级
为了改进 Foundry 模型并提供无摩擦体验,我们将启动 Foundry 配额层。 Foundry 配额层允许模型配额随着消耗的增长而增加,从而帮助你在不达到速率限制的情况下增长,同时为所有用户创建更公平的环境。 从今天开始将推出七个新级别:免费层和第 1 层到第 6 层。 配额层由使用情况和Microsoft关系(如企业状态)决定。
对我来说有什么变化?
在配额层之前,Foundry 提供默认配额级别和企业配额级别。 但是,这两个级别的配额差距太高,请求更多的配额是一个漫长的过程。 使用配额层级,所有 Foundry 用户会被分配到一个层级,其配额等于或高于他们之前的配额分配。 如果通过配额增加过程授予了其他配额,该配额将适用,并且不会降低。 随着使用量的增加,Foundry 将自动将您升级至下一个服务层级,从而授予更多配额。 始终可以使用配额表单请求更多配额。
层级更改条件是什么?
Foundry 会分析您一段时间内的消费趋势。 如果你的消耗量增加,并且当前版本阻止你无缝使用 Foundry Models,它将自动升级到下一个等级。 另一个因素是你与Microsoft的关系。 例如,如果您拥有企业关系(包括 MCA-E),则会被分配到更高的等级,而不考虑消费情况。 最后,有资格进行自动升级的客户也有一致的付款历史记录。
是否可以选择退出自动升级?
是的,你可以选择退出自动升级,无论消耗中的更改如何,你都会保留在当前层中。 我们认识到,一些客户使用配额来管理其计费。 但是,这不是 Azure 最佳做法,我们明白,如果你的系统配置为这样,我们不想打破它。 可以在此处了解有关计费管理和最佳做法的详细信息: 成本管理。
若要选择退出,可以将以下标志设置为 NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
注释
选择退出功能为预览版,将来可能会更改/删除。
是否可以请求更多配额?
是的,使用 配额请求表单 ,始终可以请求更多配额。 但是,请注意,您的请求(如果已批准)将升级到下一个级别,而当前级别将保持不变。
配额层细分
本页文档将很快推出关于每个模型按配额层划分的细分说明。
配额与限制参考
以下部分提供了适用于 Azure OpenAI 的默认配额和限制的快速指南:
| 限制名称 | 限制值 |
|---|---|
| 每个区域、每个 Azure 订阅的 Azure OpenAI 资源 | 30. |
| 默认 DALL-E 2 配额限制 | 2 个并发请求。 |
| 默认 DALL-E 3 配额限制 | 每分钟 6 个请求 |
| 默认 GPT-image-1 配额限制 | 每分钟 9 个请求 |
| 默认 GPT-image-1-mini 配额限制 | 每分钟 12 个请求 |
| 默认 GPT-image-1.5 配额限制 | 每分钟 9 个请求 |
| 默认 Sora 配额限制 | 每分钟 60 个请求。 |
| 默认Sora 2配额限制 | 每分钟 2 个作业请求1 |
| 默认语音转文本音频 API 配额限制 | 每分钟 3 个请求。 |
| 每个请求的最大提示令牌数 | 每个模型不同。 有关详细信息,请参阅 Azure OpenAI 模型。 |
| 每个资源的最大标准部署数 | 32. |
| 最大微调模型部署 | 10. |
| 每个资源的训练作业总数 | 100. |
| 每个资源可同时运行的训练作业最大数量 | 标准和全球培训:3; 开发人员培训:5 |
| 队列中的最大训练作业数 | 20. |
| 每个资源的最大文件数(优化) | 100. |
| 每个资源的所有文件的总大小(优调) | 1 GB。 |
| 训练作业的最长时间(若超出则作业失败) | 720 小时。 |
最大训练作业大小 (tokens in training file) x (# of epochs) |
20 亿。 |
| 每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB。 |
数组中具有 /embeddings 的最大输入数 |
2,048. |
最大消息数/chat/completions |
2,048. |
最大数量的/chat/completions函数 |
128. |
最大工具数/chat completions |
128. |
| 每个部署预配的吞吐量单位数上限 | 100,000. |
| 每个助理或线程的最大文件数 | 使用 API 或 Microsoft Foundry 门户时为 10,000。 |
| 助手和微调的最大文件大小 | 512 MB 通过 API 可通过 Foundry 门户 获取 200 MB。 |
| 每个资源的最大文件上传请求数 | 每秒 30 个请求。 |
| 助手的所有上传文件的最大大小 | 200 GB。 |
| 助手令牌限制 | 限制为 2,000,000 个令牌。 |
GPT-4o 以及 GPT-4.1 每个请求的最大图像数(消息数组或对话历史记录中的图像数) |
50. |
GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大令牌数 |
16. 增加 max_tokens 参数值以避免响应被截断。
GPT-4o 最大令牌默认为 4,096。 |
| API 请求2 中自定义标头的最大数目 | 10. |
| 消息字符限制 | 1,048,576. |
| 音频文件的消息大小 | 20 MB。 |
1 Sora 2 RPM 配额仅计算视频作业请求。 其他类型的请求不受速率限制。
2 我们的当前 API 最多允许 10 个自定义标头,这些标头通过管道传递并返回。 某些客户现在超过此标头计数,这会导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们不会传递自定义标头。 我们建议客户在未来的系统体系结构中不依赖于自定义标头。
注释
配额限制可能会更改。
GPT-5.2 系列
| 型号 | 部署类型 | 默认 RPM | 默认 TPM | 企业和 MCA-E RPM | 企业和 MCA-E TPM |
|---|---|---|---|---|---|
gpt-5.2 |
数据区标准 | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5.2 |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 1000万 |
gpt-5.2-chat |
GlobalStandard | 10,000 | 1,000,000 | 50,000 | 5,000,000 |
gpt-5.2-codex |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 1000万 |
GPT-5.1 系列
| 型号 | 部署类型 | 默认 RPM | 默认 TPM | 企业和 MCA-E RPM | 企业和 MCA-E TPM |
|---|---|---|---|---|---|
gpt-5.1 |
数据区标准 | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5.1 |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 1000万 |
gpt-5.1-chat |
GlobalStandard | 10,000 | 1,000,000 | 50,000 | 5,000,000 |
gpt-5.1-codex |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 1000万 |
gpt-5.1-codex-mini |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 1000万 |
gpt-5.1-codex-max |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 1000万 |
GPT-5 系列
| 型号 | 部署类型 | 默认 RPM | 默认 TPM | 企业和 MCA-E RPM | 企业和 MCA-E TPM |
|---|---|---|---|---|---|
gpt-5 |
数据区标准 | 3,000 | 300,000 | 30,000 | 3,000,000 |
gpt-5 |
GlobalStandard | 10,000 | 1,000,000 | 100,000 | 1000万 |
gpt-5-chat |
GlobalStandard | 1,000 | 1,000,000 | 5,000 | 5,000,000 |
gpt-5-mini |
数据区标准 | 300 | 300,000 | 3,000 | 3,000,000 |
gpt-5-mini |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 1000万 |
gpt-5-nano |
数据区标准 | 2,000 | 2,000,000 | 50,000 | 五千万元 |
gpt-5-nano |
GlobalStandard | 5,000 | 5,000,000 | 150,000 | 150,000,000 |
gpt-5-codex |
GlobalStandard | 1,000 | 1,000,000 | 10,000 | 1000万 |
gpt-5-pro |
GlobalStandard | 1,600 | 160,000 | 16,000 | 1,600,000 |
模型路由器速率限制
| 型号 | 部署类型 | 默认 RPM | 默认 TPM | 企业和 MCA-E RPM | 企业和 MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
数据区标准 | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
批次限制
| 限制名称 | 限制值 |
|---|---|
| 最大批量输入文件——(无过期) | 500 |
| 最大批处理输入文件数 -(已设置过期时间) | 10,000 |
| 最大输入文件大小 | 200 MB |
| 最大输入文件大小 - 自带存储(BYOS) | 1GB |
| 每个文件的最大请求数 | 100,000 |
注释
批处理文件限制不适用于输出文件(例如 result.jsonl,和 error.jsonl)。 若要删除批处理输入文件的限制,请使用 Batch 与 Azure Blob 存储。
批处理配额
该表展示了批次配额限制。 全局批处理的配额值以入队令牌表示。 提交文件以进行批处理时,将计算文件中的令牌数。 在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。
全局批处理
| 型号 | 企业和 MCA-E | 违约 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50M | 90K | 无 |
gpt-4.1 mini |
15B | 1B | 50M | 90K | 无 |
gpt-4.1-nano |
15B | 1B | 50M | 90K | 无 |
gpt-4o |
5B | 200M | 50M | 90K | 无 |
gpt-4o-mini |
15B | 1B | 50M | 90K | 无 |
gpt-4-turbo |
300MB | 80M | 40M | 90K | 无 |
gpt-4 |
150兆 | 30M | 5M | 100K | 无 |
o3-mini |
15B | 1B | 50M | 90K | 无 |
o4-mini |
15B | 1B | 50M | 90K | 无 |
gpt-5 |
5B | 200M | 50M | 90K | 无 |
gpt-5.1 |
5B | 200M | 50M | 90K | 无 |
B = 十亿 | M = 百万 | K = 千
数据区域批处理
| 型号 | 企业和 MCA-E | 违约 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
|---|---|---|---|---|---|
gpt-4.1 |
500M | 30M | 30M | 90K | 无 |
gpt-4.1-mini |
15亿 | 100兆字节 | 50M | 90K | 无 |
gpt-4o |
500M | 30M | 30M | 90K | 无 |
gpt-4o-mini |
15亿 | 100兆字节 | 50M | 90K | 无 |
o3-mini |
15亿 | 100兆字节 | 50M | 90K | 无 |
gpt-5 |
5B | 200M | 50M | 90K | 无 |
gpt-5.1 |
5B | 200M | 50M | 90K | 无 |
gpt-oss
| 型号 | 每分钟标记数 (TPM) | 每分钟请求数 (RPM) |
|---|---|---|
gpt-oss-120b |
5百万 | 5公里 |
GPT-4 速率限制
GPT-4.5 全球标准预览版
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4.5 |
企业和 MCA-E | 200K | 200 |
gpt-4.5 |
违约 | 150K | 150 |
GPT-4.1 系列全局标准
| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
企业和 MCA-E | 5M | 5K |
gpt-4.1 (2025-04-14) |
违约 | 一百万 | 1K |
gpt-4.1-nano (2025-04-14) |
企业和 MCA-E | 150兆 | 150K |
gpt-4.1-nano (2025-04-14) |
违约 | 5M | 5K |
gpt-4.1-mini (2025-04-14) |
企业和 MCA-E | 150兆 | 150K |
gpt-4.1-mini (2025-04-14) |
违约 | 5M | 5K |
GPT-4.1 系列数据区域标准版
| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
企业和 MCA-E | 2M | 2K |
gpt-4.1 (2025-04-14) |
违约 | 300K | 300 |
gpt-4.1-nano (2025-04-14) |
企业和 MCA-E | 50M | 50K |
gpt-4.1-nano (2025-04-14) |
违约 | 2M | 2K |
gpt-4.1-mini (2025-04-14) |
企业和 MCA-E | 50M | 50K |
gpt-4.1-mini (2025-04-14) |
违约 | 2M | 2K |
GPT-4 Turbo
gpt-4 (turbo-2024-04-09) 的速率限制层为某些客户类型设定了更高的限制。
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4 (turbo-2024-04-09) |
企业和 MCA-E | 2M | 12K |
gpt-4 (turbo-2024-04-09) |
违约 | 450K | 2.7K |
computer-use-preview 全球标准速率限制
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
computer-use-preview |
企业和 MCA-E | 30M | 300K |
computer-use-preview |
违约 | 450K | 4.5K |
o 系列速率限制
重要
配额每分钟请求数与每分钟令牌的比率可能因模型而异。 在以编程方式部署模型或请求配额增加时,您无法分别对每分钟的令牌数和请求数进行精细的独立控制。 配额按容量单位分配,每分钟有相应的请求量和每分钟令牌数。
| 型号 | 能力 | 每分钟请求数 (RPM) | 每分钟标记数 (TPM) |
|---|---|---|---|
| 较旧的聊天模型 | 1 个单位 | 6 转速 | 每分钟千次(TPM) |
o1 和 o1-preview |
1 个单位 | 1 转速 (RPM) | 6,000 每分钟交易量(TPM) |
o3 |
1 个单位 | 1 转速 (RPM) | 每分钟千次(TPM) |
o4-mini |
1 个单位 | 1 转速 (RPM) | 每分钟千次(TPM) |
o3-mini |
1 个单位 | 1 转速 (RPM) | 10,000 次/分钟交易量 |
o1-mini |
1 个单位 | 1 转速 (RPM) | 10,000 次/分钟交易量 |
o3-pro |
1 个单位 | 1 转速 (RPM) | 10,000 次/分钟交易量 |
此概念对于编程模型部署非常重要,因为 RPM 与 TPM 比率的更改可能会导致意外分配配额错误。
o 系列全局标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
codex-mini |
企业和 MCA-E | 10M | 10K |
o3-pro |
企业和 MCA-E | 16M | 1.6K |
o4-mini |
企业和 MCA-E | 10M | 10K |
o3 |
企业和 MCA-E | 10M | 10K |
o3-mini |
企业和 MCA-E | 50M | 5K |
o1 和 o1-preview |
企业和 MCA-E | 30M | 5K |
o1-mini |
企业和 MCA-E | 50M | 5K |
codex-mini |
违约 | 一百万 | 1K |
o3-pro |
违约 | 160万 | 160 |
o4-mini |
违约 | 一百万 | 1K |
o3 |
违约 | 一百万 | 1K |
o3-mini |
违约 | 5M | 500 |
o1 和 o1-preview |
违约 | 3M | 500 |
o1-mini |
违约 | 5M | 500 |
O 系列数据区标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
o3 |
违约 | 10M | 10K |
o4-mini |
违约 | 10M | 10K |
o3-mini |
企业和 MCA-E | 20M | 2K |
o3-mini |
违约 | 2M | 200 |
o1 |
企业和 MCA-E | 6M | 1K |
o1 |
违约 | 600K | 100 |
o1-preview 和 o1-mini 标准版
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
o1-preview |
企业和 MCA-E | 600K | 100 |
o1-mini |
企业和 MCA-E | 一百万 | 100 |
o1-preview |
违约 | 300K | 50 |
o1-mini |
违约 | 500K | 50 |
gpt-4o 速率限制
gpt-4o 和 gpt-4o-mini 提供对某些客户类型限制更高的速率限制层。
gpt-4o 全局标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o |
企业和 MCA-E | 30M | 18万 |
gpt-4o-mini |
企业和 MCA-E | 150兆 | 150万 |
gpt-4o |
违约 | 450K | 2.7K |
gpt-4o-mini |
违约 | 2M | 12K |
gpt-4o 数据区域标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o |
企业和 MCA-E | 10M | 60K |
gpt-4o-mini |
企业和 MCA-E | 20M | 120K |
gpt-4o |
违约 | 300K | 1.8K |
gpt-4o-mini |
违约 | 一百万 | 6K |
gpt-4o Standard
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o |
企业和 MCA-E | 一百万 | 6K |
gpt-4o-mini |
企业和 MCA-E | 2M | 12K |
gpt-4o |
违约 | 150K | 900 |
gpt-4o-mini |
违约 | 450K | 2.7K |
gpt-4o 音频
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o-audio-preview |
违约 | 450K | 1K |
gpt-4o-realtime-preview |
违约 | 80万 | 1K |
gpt-4o-mini-audio-preview |
违约 | 2M | 1K |
gpt-4o-mini-realtime-preview |
违约 | 80万 | 1K |
gpt-audio |
违约 | 100K | 30 |
gpt-audio-mini |
违约 | 100K | 30 |
gpt-realtime |
违约 | 100K | 100 |
gpt-realtime-mini |
违约 | 100K | 100 |
gpt-realtime-mini-2025-12-15 |
违约 | 100K | 100 |
GPT-image-1 系列速率限制
GPT-image-1 全球标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-image-1 |
企业和 MCA-E | 无 | 60 |
gpt-image-1 |
中等 | 无 | 36 |
gpt-image-1 |
Low | 无 | 9 |
gpt-image-1-mini |
Low | 无 | 12 |
gpt-image-1-mini |
中等 | 无 | 36 |
gpt-image-1-mini |
High | 无 | 120 |
gpt-image-1 |
Low | 无 | 9 |
gpt-image-1 |
中等 | 无 | 18 |
gpt-image-1 |
High | 无 | 60 |
使用级别
全局标准部署使用 Azure 的全局基础结构。 他们动态地将客户流量路由到具有最佳可用性的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许使用 Azure 的全局基础结构,以动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 这种实践为流量级别在低至中等的客户提供更为稳定的一致性延迟。 持续高使用量级别的客户可能会发现响应延迟的可变性更大。
Azure OpenAI 使用层旨在为大多数流量低到中等级别的客户提供一致的性能。 每个使用层都定义了在可预测的延迟下可以达到的最大吞吐量(每分钟的令牌数)。 当使用量保留在分配的层内时,延迟将保持稳定,响应时间是一致的。
如果超出使用层,会发生什么情况?
- 如果请求吞吐量超过使用层(尤其是在高需求期间),则响应延迟可能会显著增加。
- 延迟可能会有所不同,在某些情况下,可能比您在使用层内操作时高出两倍以上。
- 对于持续使用率较高或流量突发模式的客户而言,这种可变性最为明显。
如果超出您的使用层级,建议采取的措施
如果遇到 429 个错误或注意到延迟可变性增加,应执行以下作:
- 请求增加配额:访问 Azure 门户以请求更高的订阅配额。
- 请考虑升级到高级套餐 (PTU):对于延迟关键型或高流量工作负载,请升级到预配吞吐量单位(PTU)。 PTU 提供专用资源、保证的容量和可预测的延迟,即使在大规模范围内也是如此。 这是需要一致性能的任务关键型应用程序的最佳选择。
- 监视使用情况:定期查看 Azure 门户中的使用情况指标,以确保在层限制内运行。 根据需要调整工作负荷或部署策略。
使用限制确定使用水平,超过该水平后,客户可能会看到更大的响应延迟变动。 每个模型都定义了客户的使用情况。 它是给定租户在所有区域和所有订阅中的所有部署中消耗的令牌总数。
注释
使用层仅适用于标准、数据区域标准和全局标准部署类型。 使用层不适用于全局批处理和预配的吞吐量部署。
全局标准、数据区标准和标准
| 型号 | 每月使用等级 |
|---|---|
gpt-5 |
320 亿个令牌 |
gpt-5-mini |
1600 亿个令牌 |
gpt-5-nano |
8000 亿个令牌 |
gpt-5-chat |
320 亿个令牌 |
gpt-4
+
gpt-4-32k(所有版本) |
60 亿个令牌 |
gpt-4o |
120 亿个令牌 |
gpt-4o-mini |
850 亿个令牌 |
o3-mini |
500 亿个令牌 |
o1 |
40 亿个令牌 |
o4-mini |
500 亿个令牌 |
o3 |
50 亿个令牌 |
gpt-4.1 |
300 亿个令牌 |
gpt-4.1-mini |
1500 亿个令牌 |
gpt-4.1-nano |
5500 亿个令牌 |
其他套餐类型
如果 Azure 订阅链接到某些 产品/服务类型,则最大配额值低于上表中指示的值。
GPT-5-pro 配额仅适用于 MCA-E 和默认配额订阅。 默认情况下,所有其他产品/服务类型对此模型具有零配额。
对于无权访问 MCA-E 或默认配额的所有报价种类,GPT-5 推理模型配额为 20K TPM 和 200 RPM。 对于 GPT-5-chat,限制为每分钟 50,000 个 token 和每分钟 50 个请求。
某些产品/服务类型仅限于美国东部 2 和瑞典中部地区的全球标准部署。
| 层 | 每分钟的令牌配额限制 |
|---|---|
Azure for Students |
1K (所有模型) 异常 o-series、GPT-4.1 与 GPT 4.5 预览:0 |
MSDN |
GPT-4o-mini:200K computer-use-preview: 8K gpt-4o-realtime-preview: 1K o-series:0 GPT 4.5 预览版:0 GPT-4.1:50K GPT-4.1-nano:200K |
Standard和 Pay-as-you-go |
GPT-4o-mini:200K computer-use-preview:30K o-series:0 GPT 4.5 预览版:0 GPT-4.1:50K GPT-4.1-nano:200K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini:200K |
CSP Integration Sandbox
*
|
所有模型:0 |
Lightweight trialFree trialsAzure Pass |
所有模型:0 |
*此限制仅适用于少量旧版 CSP 沙盒订阅。 使用以下查询确定与你的订阅关联的 quotaId 值是什么。
若要确定与订阅关联的产品/服务类型,可以检查你的 quotaId 值。 如果此表中未列出你的 quotaId 值,则订阅符合默认配额。
请参阅 API 参考。
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
输出
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
| 配额分配/套餐类型 | 订阅配额 ID |
|---|---|
| 企业和 MCA-E | EnterpriseAgreement_2014-09-01 |
| 即用即付 | PayAsYouGo_2014-09-01 |
| MSDN | MSDN_2014-09-01 |
| CSP 集成沙盒 | CSPDEVTEST_2018-05-01 |
| 面向学生的 Azure | AzureForStudents_2018-01-01 |
| 免费试用 | FreeTrial_2014-09-01 |
| Azure Pass | AzurePass_2014-09-01 |
| Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
| Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
| Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
| Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
| 违约 | 此表中未列出的任何配额编号 |
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。
请求增加配额
可以请求直接 由 Azure 销售的 Foundry 模型(包括 Azure OpenAI 模型)的配额增加。 配额增加通常不适用于 来自合作伙伴和社区的模型。 人类模型是一个例外。
提交 配额增加请求表单 以请求增加配额。 请求按收到的顺序进行处理。 优先权会给予主动使用其现有配额的客户。 不符合此条件的请求可能会被拒绝。
对于其他速率限制的增加,可提交服务请求。
区域配额容量限制
可以在 Foundry 门户中按订阅的区域查看配额可用性。
若要按区域查看特定模型或版本的配额容量,可以查询订阅的 容量 API 。 请提供subscriptionId、model_name和model_version,API将返回该型号在您的订阅中所有区域和部署类型的可用容量。
注释
目前,Foundry 门户和容量 API 都返回 已停用 且不再可用的模型的配额/容量信息。
请参阅 API 参考。
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
相关内容
- 探索如何管理 Azure OpenAI 部署的配额。
- 详细了解 支持 Azure OpenAI 的基础模型。