本文包含快速参考和Azure OpenAI 配额和限制的详细说明。
配额范围
不会在租户级别强制执行配额和限制。 而是将配额限制的最高级别限定在Azure订阅级别。
区域配额分配
每分钟令牌数(TPM)和每分钟请求数(RPM)的限制是依据每个区域、每个订阅以及每个模型或部署类型定义的。
例如,如果列出gpt-4.1 Global Standard 模型,其配额为500 万 TPM和5,000 RPM,那么在每个区域,该模型或部署类型可用时,你的每个 Azure 订阅都有一个该数量的专用配额池。 在单个Azure订阅中,只要资源和模型部署分布在多个区域,就可以对给定模型和部署类型使用更大的 TPM 和 RPM 配额。
配额层级
我们正在引入配额等级,以改善 Foundry 模型体验,并减少因工作负载扩大而产生的摩擦。 配额现在会自动增加使用量,有助于避免速率限制错误,同时为所有用户创建更公平的环境。 将提供七个层:免费层和第 1 层到 6 层 - 第 6 层提供最高配额。 客户的初始分配层是根据他们当前使用该模型的情况以及他们与 Microsoft 的当前关系(例如企业协议(EA,即 Enterprise Agreement)或 MCA-E 状态)确定的。
对我来说有什么变化?
以前,Foundry 仅为按需付费服务类型提供“默认”和“企业”配额级别,这两个级别之间有很大的差距,且增加配额的申请流程较为漫长。 在配额层中,所有用户都将被分配到一个层,该层的配额等于或高于他们以前的级别。 任何以前批准的配额增加都会保留,不会减少。 随着使用量的增长,Foundry 通过将用户移动到较高层来自动增加配额,并且仍可以通过配额形式请求其他配额。
客户如何自动从一个层移动到另一层,例如层更改条件是什么?
自动层升级主要基于一段时间内 Foundry 模型的客户消费趋势。 如果客户的使用量增加,导致其当前配额层限制了使用 Foundry 模型的能力,系统将自动把客户升级到下一个更高的层级。 还将考虑客户与Microsoft的关系。 具有与 Microsoft 企业关系(包括 EA 和 MCA-E)的客户会被分配到更高的配额层级。 此外,Microsoft还将考虑客户的付款历史记录,以确定自动升级的资格。
是否可以选择退出自动升级?
是的,你可以选择退出自动升级,无论消耗中的更改如何,你都会保留在当前层中。 我们认识到,一些客户使用配额来管理其计费。 但是,这不是Azure最佳做法,我们明白,如果你的系统配置为这样,我们不想破坏它。 可以在此处了解有关计费管理和最佳做法的详细信息: 成本管理。
若要选择退出,可以将以下标志设置为 NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
注意
选择退出功能为预览版,将来可能会更改/删除。
是否可以请求更多配额?
是的,使用 配额请求表单 ,始终可以请求更多配额。 如果请求获得批准,则当前层将保持不变,但分配了更多的配额。
如何查看订阅的配额等级?
您目前可以使用 控制平面 API 检查您的配额级别:
curl -X GET \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "{YOUR-SUBSCRIPTION-ID}"
api_version = "2025-10-01-preview"
base_url = "https://management.azure.com"
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {
'Authorization': 'Bearer ' + token.token,
'Content-Type': 'application/json'
}
list_url = (
f"{base_url}/subscriptions/{subscriptionId}"
f"/providers/Microsoft.CognitiveServices/quotaTiers"
f"?api-version={api_version}"
)
response = requests.get(list_url, headers=headers)
print(json.dumps(response.json(), indent=2))
{
"value": [
{
"properties": {
"currentTierName": "Tier 1",
"assignmentDate": "2025-10-18T05:09:05.6334222Z",
"tierUpgradePolicy": "OnceUpgradeIsAvailable"
},
"id": "/subscriptions/aaaaa-bbbbb-ccccc-dddd-eeeeeee/providers/Microsoft.CognitiveServices/quotaTiers/default",
"name": "default",
"type": "Microsoft.CognitiveServices/quotaTiers"
}
]
}
配额层级参考
第 1 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| codex-mini |
GlobalStandard |
1,000 |
1,000,000 |
| 计算机使用预览 |
GlobalStandard |
4,500 |
四十五万 |
| gpt-4.1 |
DataZoneStandard |
300 |
300,000 |
| gpt-4.1 |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-4.1-mini |
DataZoneStandard |
2000 |
2,000,000 |
| gpt-4.1-mini |
GlobalStandard |
5,000 |
5,000,000 |
| gpt-4.1-mini |
标准 |
6,000 |
6,000,000 |
| gpt-4.1-nano |
DataZoneStandard |
2000 |
2,000,000 |
| gpt-4.1-nano |
GlobalStandard |
5,000 |
5,000,000 |
| gpt-4o |
DataZoneStandard |
300 / 10秒 |
300,000 |
| gpt-4o-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini |
DataZoneStandard |
一万 |
1,000,000 |
| gpt-4o-mini |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-4o-mini-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-4o-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-5 |
DataZoneStandard |
3,000 |
300,000 |
| gpt-5 |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5-chat |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5-codex |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5-mini |
DataZoneStandard |
300 |
300,000 |
| gpt-5-mini |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5-nano |
DataZoneStandard |
2000 |
2,000,000 |
| gpt-5-nano |
GlobalStandard |
5,000 |
5,000,000 |
| gpt-5-pro |
GlobalStandard |
1,600 |
160,000 |
| gpt-5.1 |
DataZoneStandard |
3,000 |
300,000 |
| gpt-5.1 |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.1 |
标准 |
3,000 |
300,000 |
| gpt-5.1-chat |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.1-codex |
DataZoneStandard |
3,000 |
300,000 |
| gpt-5.1-codex |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5.1-codex-max |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.1-codex-mini |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5.2 |
DataZoneStandard |
3,000 |
300,000 |
| gpt-5.2 |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.2-chat |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.3-chat |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5.2-codex |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.3-codex |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.4 |
DataZoneStandard |
300 |
300,000 |
| gpt-5.4 |
GlobalStandard |
一万 |
1,000,000 |
| gpt-5.4-pro |
GlobalStandard |
160 |
160,000 |
| gpt-5.4-mini |
GlobalStandard |
1,000 |
1,000,000 |
| gpt-5.4-nano |
DataZoneStandard |
2000 |
2,000,000 |
| gpt-5.4-nano |
GlobalStandard |
5,000 |
5,000,000 |
| gpt-5.5 |
DataZoneStandard |
0 |
0 |
| gpt-5.5 |
GlobalStandard |
0 |
0 |
| gpt-聊天-最新 |
GlobalStandard |
一万 |
1,000,000 |
| gpt-audio |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-image-1 |
GlobalStandard |
9 |
- |
| gpt-image-1-mini |
GlobalStandard |
12 |
- |
| gpt-image-1.5 |
DataZoneStandard |
3 |
- |
| gpt-image-1.5 |
GlobalStandard |
9 |
- |
| gpt-image-2 |
DataZoneStandard |
2 |
- |
| gpt-image-2 |
GlobalStandard |
6 |
- |
| gpt-realtime |
GlobalStandard |
200 |
100,000 |
| 模型路由器 |
DataZoneStandard |
300 |
300,000 |
| 模型路由器 |
GlobalStandard |
1,000 |
1,000,000 |
| o1 |
DataZoneStandard |
100 |
600,000 |
| o1 |
GlobalStandard |
500 |
3,000,000 |
| o3 |
DataZoneStandard |
300 |
300,000 |
| o3 |
GlobalStandard |
1,000 |
1,000,000 |
| o3 深度研究 |
GlobalStandard |
3,000 |
3,000,000 |
| o3-mini |
DataZoneStandard |
200 |
2,000,000 |
| o3-mini |
GlobalStandard |
500 |
5,000,000 |
| o3-pro |
GlobalStandard |
160 |
1,600,000 |
| o4-mini |
DataZoneStandard |
300 / 10秒 |
300,000 |
| o4-mini |
GlobalStandard |
1,000 |
1,000,000 |
| text-embedding-3-large |
DataZoneStandard |
1,000 |
1,000,000 |
| text-embedding-3-large |
GlobalStandard |
1000 / 10 秒 |
1,000,000 |
| text-embedding-3-small |
DataZoneStandard |
1,000 |
1,000,000 |
| text-embedding-3-small |
GlobalStandard |
1000 / 10 秒 |
1,000,000 |
第 2 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| codex-mini |
GlobalStandard |
2000 |
2,000,000 |
| 计算机使用预览 |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-4.1 |
DataZoneStandard |
1,000 |
1,000,000 |
| gpt-4.1 |
GlobalStandard |
3,000 |
3,000,000 |
| gpt-4.1-mini |
DataZoneStandard |
6,000 |
6,000,000 |
| gpt-4.1-mini |
GlobalStandard |
16,000 |
16,000,000 |
| gpt-4.1-mini |
标准 |
12,000 |
12,000,000 |
| gpt-4.1-nano |
DataZoneStandard |
6,000 |
6,000,000 |
| gpt-4.1-nano |
GlobalStandard |
16,000 |
16,000,000 |
| gpt-4o |
DataZoneStandard |
1000 / 10 秒 |
1,000,000 |
| gpt-4o-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini |
DataZoneStandard |
30,000 |
3,000,000 |
| gpt-4o-mini |
GlobalStandard |
90,000 |
9,000,000 |
| gpt-4o-mini-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-4o-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-5 |
DataZoneStandard |
一万 |
1,000,000 |
| gpt-5 |
GlobalStandard |
30,000 |
3,000,000 |
| gpt-5-chat |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5-codex |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5-mini |
DataZoneStandard |
670 |
670,000 |
| gpt-5-mini |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5-nano |
DataZoneStandard |
6,000 |
6,000,000 |
| gpt-5-nano |
GlobalStandard |
16,000 |
16,000,000 |
| gpt-5-pro |
GlobalStandard |
3,500 |
350,000 |
| gpt-5.1 |
DataZoneStandard |
6,700 |
670,000 |
| gpt-5.1 |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.1 |
标准 |
6,700 |
670,000 |
| gpt-5.1-chat |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.1-codex |
DataZoneStandard |
6,700 |
670,000 |
| gpt-5.1-codex |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5.1-codex-max |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.1-codex-mini |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5.2 |
DataZoneStandard |
6,700 |
670,000 |
| gpt-5.2 |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.2-chat |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.3-chat |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5.2-codex |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.3-codex |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.4 |
DataZoneStandard |
670 |
670,000 |
| gpt-5.4 |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-5.4-pro |
GlobalStandard |
350 |
350,000 |
| gpt-5.4-mini |
GlobalStandard |
2000 |
2,000,000 |
| gpt-5.4-nano |
DataZoneStandard |
6,000 |
6,000,000 |
| gpt-5.4-nano |
GlobalStandard |
16,000 |
16,000,000 |
| gpt-5.5 |
DataZoneStandard |
0 |
0 |
| gpt-5.5 |
GlobalStandard |
0 |
0 |
| gpt-聊天-最新 |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-audio |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-image-1 |
GlobalStandard |
18 |
- |
| gpt-image-1-mini |
GlobalStandard |
27 |
- |
| gpt-image-1.5 |
DataZoneStandard |
5 |
- |
| gpt-image-1.5 |
GlobalStandard |
15 |
- |
| gpt-image-2 |
DataZoneStandard |
4 |
- |
| gpt-image-2 |
GlobalStandard |
12 |
- |
| gpt-realtime |
GlobalStandard |
200 |
100,000 |
| 模型路由器 |
DataZoneStandard |
670 |
670,000 |
| 模型路由器 |
GlobalStandard |
2000 |
2,000,000 |
| o1 |
DataZoneStandard |
225 |
1,350,000 |
| o1 |
GlobalStandard |
1,000 |
6,000,000 |
| o3 |
DataZoneStandard |
670 |
670,000 |
| o3 |
GlobalStandard |
2000 |
2,000,000 |
| o3 深度研究 |
GlobalStandard |
7,000 |
7,000,000 |
| o3-mini |
DataZoneStandard |
350 |
3,500,000 |
| o3-mini |
GlobalStandard |
1,000 |
1,000万 |
| o3-pro |
GlobalStandard |
350 |
3,500,000 |
| o4-mini |
DataZoneStandard |
670 / 10秒 |
670,000 |
| o4-mini |
GlobalStandard |
2000 |
2,000,000 |
| text-embedding-3-large |
DataZoneStandard |
2000 |
2,000,000 |
| text-embedding-3-large |
GlobalStandard |
2000 / 10年代 |
2,000,000 |
| text-embedding-3-small |
DataZoneStandard |
2000 |
2,000,000 |
| text-embedding-3-small |
GlobalStandard |
2000 / 10年代 |
2,000,000 |
第 3 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| codex-mini |
GlobalStandard |
4,000 |
400万 |
| 计算机使用预览 |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-4.1 |
DataZoneStandard |
3,000 |
3,000,000 |
| gpt-4.1 |
GlobalStandard |
9,000 |
9,000,000 |
| gpt-4.1-mini |
DataZoneStandard |
16,000 |
16,000,000 |
| gpt-4.1-mini |
GlobalStandard |
46,000 |
46,000,000 |
| gpt-4.1-mini |
标准 |
30,000 |
30,000,000 |
| gpt-4.1-nano |
DataZoneStandard |
16,000 |
16,000,000 |
| gpt-4.1-nano |
GlobalStandard |
46,000 |
46,000,000 |
| gpt-4o |
DataZoneStandard |
3000 / 10秒 |
3,000,000 |
| gpt-4o-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini |
DataZoneStandard |
70,000 |
7,000,000 |
| gpt-4o-mini |
GlobalStandard |
330,000 |
三千三百万 |
| gpt-4o-mini-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-4o-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-5 |
DataZoneStandard |
30,000 |
3,000,000 |
| gpt-5 |
GlobalStandard |
90,000 |
9,000,000 |
| gpt-5-chat |
GlobalStandard |
3,000 |
3,000,000 |
| gpt-5-codex |
GlobalStandard |
4,000 |
400万 |
| gpt-5-mini |
DataZoneStandard |
1,000 |
1,000,000 |
| gpt-5-mini |
GlobalStandard |
4,000 |
400万 |
| gpt-5-nano |
DataZoneStandard |
16,000 |
16,000,000 |
| gpt-5-nano |
GlobalStandard |
46,000 |
46,000,000 |
| gpt-5-pro |
GlobalStandard |
7,000 |
700,000 |
| gpt-5.1 |
DataZoneStandard |
一万 |
1,000,000 |
| gpt-5.1 |
GlobalStandard |
40,000 |
400万 |
| gpt-5.1 |
标准 |
一万 |
1,000,000 |
| gpt-5.1-chat |
GlobalStandard |
30,000 |
3,000,000 |
| gpt-5.1-codex |
DataZoneStandard |
一万 |
1,000,000 |
| gpt-5.1-codex |
GlobalStandard |
4,000 |
400万 |
| gpt-5.1-codex-max |
GlobalStandard |
40,000 |
400万 |
| gpt-5.1-codex-mini |
GlobalStandard |
4,000 |
400万 |
| gpt-5.2 |
DataZoneStandard |
一万 |
1,000,000 |
| gpt-5.2 |
GlobalStandard |
40,000 |
400万 |
| gpt-5.2-chat |
GlobalStandard |
30,000 |
3,000,000 |
| gpt-5.3-chat |
GlobalStandard |
3,000 |
3,000,000 |
| gpt-5.2-codex |
GlobalStandard |
40,000 |
400万 |
| gpt-5.3-codex |
GlobalStandard |
40,000 |
400万 |
| gpt-5.4 |
DataZoneStandard |
1,000 |
1,000,000 |
| gpt-5.4 |
GlobalStandard |
40,000 |
400万 |
| gpt-5.4-pro |
GlobalStandard |
700 |
700,000 |
| gpt-5.4-mini |
GlobalStandard |
4,000 |
400万 |
| gpt-5.4-nano |
DataZoneStandard |
16,000 |
16,000,000 |
| gpt-5.4-nano |
GlobalStandard |
46,000 |
46,000,000 |
| gpt-5.5 |
DataZoneStandard |
0 |
0 |
| gpt-5.5 |
GlobalStandard |
0 |
0 |
| gpt-聊天-最新 |
GlobalStandard |
20,000 |
2,000,000 |
| gpt-audio |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-image-1 |
GlobalStandard |
30 |
- |
| gpt-image-1-mini |
GlobalStandard |
54 |
- |
| gpt-image-1.5 |
DataZoneStandard |
10 |
- |
| gpt-image-1.5 |
GlobalStandard |
30 |
- |
| gpt-image-2 |
DataZoneStandard |
6 |
- |
| gpt-image-2 |
GlobalStandard |
18 |
- |
| gpt-realtime |
GlobalStandard |
200 |
100,000 |
| 模型路由器 |
DataZoneStandard |
1,000 |
1,000,000 |
| 模型路由器 |
GlobalStandard |
4,000 |
400万 |
| o1 |
DataZoneStandard |
450 |
2,700,000 |
| o1 |
GlobalStandard |
2000 |
12,000,000 |
| o3 |
DataZoneStandard |
1,000 |
1,000,000 |
| o3 |
GlobalStandard |
4,000 |
400万 |
| o3 深度研究 |
GlobalStandard |
13,000 |
13,000,000 |
| o3-mini |
DataZoneStandard |
900 |
9,000,000 |
| o3-mini |
GlobalStandard |
2000 |
20,000,000 |
| o3-pro |
GlobalStandard |
715 |
7,150,000 |
| o4-mini |
DataZoneStandard |
1000 / 10 秒 |
1,000,000 |
| o4-mini |
GlobalStandard |
4,000 |
400万 |
| text-embedding-3-large |
DataZoneStandard |
4,000 |
400万 |
| text-embedding-3-large |
GlobalStandard |
4000 / 10s |
400万 |
| text-embedding-3-small |
DataZoneStandard |
4,000 |
400万 |
| text-embedding-3-small |
GlobalStandard |
4000 / 10s |
400万 |
第 4 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| codex-mini |
GlobalStandard |
7,000 |
7,000,000 |
| 计算机使用预览 |
GlobalStandard |
160,000 |
16,000,000 |
| gpt-4.1 |
DataZoneStandard |
6,000 |
6,000,000 |
| gpt-4.1 |
GlobalStandard |
18,000 |
18,000,000 |
| gpt-4.1-mini |
DataZoneStandard |
31,000 |
31,000,000 |
| gpt-4.1-mini |
GlobalStandard |
90,000 |
90,000,000 |
| gpt-4.1-mini |
标准 |
75,000 |
75,000,000 |
| gpt-4.1-nano |
DataZoneStandard |
31,000 |
31,000,000 |
| gpt-4.1-nano |
GlobalStandard |
90,000 |
90,000,000 |
| gpt-4o |
DataZoneStandard |
6000 / 10s |
6,000,000 |
| gpt-4o-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini |
DataZoneStandard |
130,000 |
13,000,000 |
| gpt-4o-mini |
GlobalStandard |
780,000 |
78,000,000 |
| gpt-4o-mini-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-4o-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-5 |
DataZoneStandard |
60,000 |
6,000,000 |
| gpt-5 |
GlobalStandard |
180,000 |
18,000,000 |
| gpt-5-chat |
GlobalStandard |
4,000 |
400万 |
| gpt-5-codex |
GlobalStandard |
7,000 |
7,000,000 |
| gpt-5-mini |
DataZoneStandard |
2000 |
2,000,000 |
| gpt-5-mini |
GlobalStandard |
7,000 |
7,000,000 |
| gpt-5-nano |
DataZoneStandard |
31,000 |
31,000,000 |
| gpt-5-nano |
GlobalStandard |
90,000 |
90,000,000 |
| gpt-5-pro |
GlobalStandard |
11,500 |
1,150,000 |
| gpt-5.1 |
DataZoneStandard |
20,000 |
2,000,000 |
| gpt-5.1 |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-5.1 |
标准 |
20,000 |
2,000,000 |
| gpt-5.1-chat |
GlobalStandard |
40,000 |
400万 |
| gpt-5.1-codex |
DataZoneStandard |
20,000 |
2,000,000 |
| gpt-5.1-codex |
GlobalStandard |
7,000 |
7,000,000 |
| gpt-5.1-codex-max |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-5.1-codex-mini |
GlobalStandard |
7,000 |
7,000,000 |
| gpt-5.2 |
DataZoneStandard |
20,000 |
2,000,000 |
| gpt-5.2 |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-5.2-chat |
GlobalStandard |
40,000 |
400万 |
| gpt-5.3-chat |
GlobalStandard |
4,000 |
400万 |
| gpt-5.2-codex |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-5.3-codex |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-5.4 |
DataZoneStandard |
2000 |
2,000,000 |
| gpt-5.4 |
GlobalStandard |
70,000 |
7,000,000 |
| gpt-5.4-pro |
GlobalStandard |
1,150 |
1,150,000 |
| gpt-5.4-mini |
GlobalStandard |
7,000 |
7,000,000 |
| gpt-5.4-nano |
DataZoneStandard |
31,000 |
31,000,000 |
| gpt-5.4-nano |
GlobalStandard |
90,000 |
90,000,000 |
| gpt-5.5 |
DataZoneStandard |
0 |
0 |
| gpt-5.5 |
GlobalStandard |
0 |
0 |
| gpt-聊天-最新 |
GlobalStandard |
40,000 |
400万 |
| gpt-audio |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-image-1 |
GlobalStandard |
45 |
- |
| gpt-image-1-mini |
GlobalStandard |
84 |
- |
| gpt-image-1.5 |
DataZoneStandard |
15 |
- |
| gpt-image-1.5 |
GlobalStandard |
45 |
- |
| gpt-image-2 |
DataZoneStandard |
8 |
- |
| gpt-image-2 |
GlobalStandard |
24 |
- |
| gpt-realtime |
GlobalStandard |
200 |
100,000 |
| 模型路由器 |
DataZoneStandard |
2000 |
2,000,000 |
| 模型路由器 |
GlobalStandard |
7,000 |
7,000,000 |
| o1 |
DataZoneStandard |
700 |
4,200,000 |
| o1 |
GlobalStandard |
4,000 |
24,000,000 |
| o3 |
DataZoneStandard |
2000 |
2,000,000 |
| o3 |
GlobalStandard |
7,000 |
7,000,000 |
| o3 深度研究 |
GlobalStandard |
21,000 |
21,000,000 |
| o3-mini |
DataZoneStandard |
1,000 |
1,000万 |
| o3-mini |
GlobalStandard |
4,000 |
四千万 |
| o3-pro |
GlobalStandard |
1,150 |
11,500,000 |
| o4-mini |
DataZoneStandard |
2000 / 10年代 |
2,000,000 |
| o4-mini |
GlobalStandard |
7,000 |
7,000,000 |
| text-embedding-3-large |
DataZoneStandard |
7,000 |
7,000,000 |
| text-embedding-3-large |
GlobalStandard |
7000 / 10s |
7,000,000 |
| text-embedding-3-small |
DataZoneStandard |
7,000 |
7,000,000 |
| text-embedding-3-small |
GlobalStandard |
7000 / 10s |
7,000,000 |
第 5 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| codex-mini |
GlobalStandard |
一万 |
1,000万 |
| 计算机使用预览 |
GlobalStandard |
300,000 |
30,000,000 |
| gpt-4.1 |
DataZoneStandard |
一万 |
1,000万 |
| gpt-4.1 |
GlobalStandard |
30,000 |
30,000,000 |
| gpt-4.1-mini |
DataZoneStandard |
50,000 |
5000万 |
| gpt-4.1-mini |
GlobalStandard |
150,000 |
150,000,000 |
| gpt-4.1-mini |
标准 |
150,000 |
150,000,000 |
| gpt-4.1-nano |
DataZoneStandard |
50,000 |
5000万 |
| gpt-4.1-nano |
GlobalStandard |
150,000 |
150,000,000 |
| gpt-4o |
DataZoneStandard |
10000 / 10秒 |
1,000万 |
| gpt-4o-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini |
DataZoneStandard |
200,000 |
20,000,000 |
| gpt-4o-mini |
GlobalStandard |
1,500,000 |
150,000,000 |
| gpt-4o-mini-audio-preview |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-4o-mini-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-4o-实时预览 |
GlobalStandard |
36 |
6,000 |
| gpt-5 |
DataZoneStandard |
100,000 |
1,000万 |
| gpt-5 |
GlobalStandard |
300,000 |
30,000,000 |
| gpt-5-chat |
GlobalStandard |
5,000 |
5,000,000 |
| gpt-5-codex |
GlobalStandard |
一万 |
1,000万 |
| gpt-5-mini |
DataZoneStandard |
3,000 |
3,000,000 |
| gpt-5-mini |
GlobalStandard |
一万 |
1,000万 |
| gpt-5-nano |
DataZoneStandard |
50,000 |
5000万 |
| gpt-5-nano |
GlobalStandard |
150,000 |
150,000,000 |
| gpt-5-pro |
GlobalStandard |
16,000 |
1,600,000 |
| gpt-5.1 |
DataZoneStandard |
30,000 |
3,000,000 |
| gpt-5.1 |
GlobalStandard |
100,000 |
1,000万 |
| gpt-5.1 |
标准 |
30,000 |
3,000,000 |
| gpt-5.1-chat |
GlobalStandard |
50,000 |
5,000,000 |
| gpt-5.1-codex |
DataZoneStandard |
30,000 |
3,000,000 |
| gpt-5.1-codex |
GlobalStandard |
一万 |
1,000万 |
| gpt-5.1-codex-max |
GlobalStandard |
100,000 |
1,000万 |
| gpt-5.1-codex-mini |
GlobalStandard |
一万 |
1,000万 |
| gpt-5.2 |
DataZoneStandard |
30,000 |
3,000,000 |
| gpt-5.2 |
GlobalStandard |
100,000 |
1,000万 |
| gpt-5.2-chat |
GlobalStandard |
50,000 |
5,000,000 |
| gpt-5.3-chat |
GlobalStandard |
5,000 |
5,000,000 |
| gpt-5.2-codex |
GlobalStandard |
100,000 |
1,000万 |
| gpt-5.3-codex |
GlobalStandard |
100,000 |
1,000万 |
| gpt-5.4 |
DataZoneStandard |
3,000 |
3,000,000 |
| gpt-5.4 |
GlobalStandard |
100,000 |
1,000万 |
| gpt-5.4-pro |
GlobalStandard |
1,600 |
1,600,000 |
| gpt-5.4-mini |
GlobalStandard |
一万 |
1,000万 |
| gpt-5.4-nano |
DataZoneStandard |
50,000 |
5000万 |
| gpt-5.4-nano |
GlobalStandard |
150,000 |
150,000,000 |
| gpt-5.5 |
DataZoneStandard |
3,000 |
3,000,000 |
| gpt-5.5 |
GlobalStandard |
一万 |
1,000万 |
| gpt-聊天-最新 |
GlobalStandard |
50,000 |
5,000,000 |
| gpt-audio |
GlobalStandard |
30000 / 10s |
30,000,000 |
| gpt-image-1 |
GlobalStandard |
60 |
- |
| gpt-image-1-mini |
GlobalStandard |
120 |
- |
| gpt-image-1.5 |
DataZoneStandard |
20 |
- |
| gpt-image-1.5 |
GlobalStandard |
60 |
- |
| gpt-image-2 |
DataZoneStandard |
10 |
- |
| gpt-image-2 |
GlobalStandard |
30 |
- |
| gpt-realtime |
GlobalStandard |
200 |
100,000 |
| 模型路由器 |
DataZoneStandard |
3,000 |
3,000,000 |
| 模型路由器 |
GlobalStandard |
一万 |
1,000万 |
| o1 |
DataZoneStandard |
1,000 |
6,000,000 |
| o1 |
GlobalStandard |
5,000 |
30,000,000 |
| o3 |
DataZoneStandard |
3,000 |
3,000,000 |
| o3 |
GlobalStandard |
一万 |
1,000万 |
| o3 深度研究 |
GlobalStandard |
30,000 |
30,000,000 |
| o3-mini |
DataZoneStandard |
2000 |
20,000,000 |
| o3-mini |
GlobalStandard |
5,000 |
5000万 |
| o3-pro |
GlobalStandard |
1,600 |
16,000,000 |
| o4-mini |
DataZoneStandard |
3000 / 10秒 |
3,000,000 |
| o4-mini |
GlobalStandard |
一万 |
1,000万 |
| text-embedding-3-large |
DataZoneStandard |
一万 |
1,000万 |
| text-embedding-3-large |
GlobalStandard |
10000 / 10秒 |
1,000万 |
| text-embedding-3-small |
DataZoneStandard |
一万 |
1,000万 |
| text-embedding-3-small |
GlobalStandard |
10000 / 10秒 |
1,000万 |
第 6 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| codex-mini |
GlobalStandard |
15,000 |
15,000,000 |
| 计算机使用预览 |
GlobalStandard |
四十五万 |
45,000,000 |
| gpt-4.1 |
DataZoneStandard |
15,000 |
15,000,000 |
| gpt-4.1 |
GlobalStandard |
45,000 |
45,000,000 |
| gpt-4.1-mini |
DataZoneStandard |
75,000 |
75,000,000 |
| gpt-4.1-mini |
GlobalStandard |
225,000 |
225,000,000 |
| gpt-4.1-mini |
标准 |
225,000 |
225,000,000 |
| gpt-4.1-nano |
DataZoneStandard |
75,000 |
75,000,000 |
| gpt-4.1-nano |
GlobalStandard |
225,000 |
225,000,000 |
| gpt-4o |
DataZoneStandard |
15000 / 10秒 |
15,000,000 |
| gpt-4o-audio-preview |
GlobalStandard |
45000 / 10秒 |
45,000,000 |
| gpt-4o-mini |
DataZoneStandard |
300,000 |
30,000,000 |
| gpt-4o-mini |
GlobalStandard |
2,250,000 |
225,000,000 |
| gpt-4o-mini-audio-preview |
GlobalStandard |
45000 / 10秒 |
45,000,000 |
| gpt-4o-mini-实时预览 |
GlobalStandard |
54 |
9,000 |
| gpt-4o-实时预览 |
GlobalStandard |
54 |
9,000 |
| gpt-5 |
DataZoneStandard |
150,000 |
15,000,000 |
| gpt-5 |
GlobalStandard |
四十五万 |
45,000,000 |
| gpt-5-chat |
GlobalStandard |
8,000 |
8,000,000 |
| gpt-5-codex |
GlobalStandard |
15,000 |
15,000,000 |
| gpt-5-mini |
DataZoneStandard |
4,000 |
400万 |
| gpt-5-mini |
GlobalStandard |
15,000 |
15,000,000 |
| gpt-5-nano |
DataZoneStandard |
75,000 |
75,000,000 |
| gpt-5-nano |
GlobalStandard |
225,000 |
225,000,000 |
| gpt-5-pro |
GlobalStandard |
24,000 |
2,400,000 |
| gpt-5.1 |
DataZoneStandard |
40,000 |
400万 |
| gpt-5.1 |
GlobalStandard |
150,000 |
15,000,000 |
| gpt-5.1 |
标准 |
40,000 |
400万 |
| gpt-5.1-chat |
GlobalStandard |
80,000 |
8,000,000 |
| gpt-5.1-codex |
DataZoneStandard |
40,000 |
400万 |
| gpt-5.1-codex |
GlobalStandard |
15,000 |
15,000,000 |
| gpt-5.1-codex-max |
GlobalStandard |
150,000 |
15,000,000 |
| gpt-5.1-codex-mini |
GlobalStandard |
15,000 |
15,000,000 |
| gpt-5.2 |
DataZoneStandard |
40,000 |
400万 |
| gpt-5.2 |
GlobalStandard |
150,000 |
15,000,000 |
| gpt-5.2-chat |
GlobalStandard |
80,000 |
8,000,000 |
| gpt-5.3-chat |
GlobalStandard |
8,000 |
8,000,000 |
| gpt-5.2-codex |
GlobalStandard |
150,000 |
15,000,000 |
| gpt-5.3-codex |
GlobalStandard |
150,000 |
15,000,000 |
| gpt-5.4 |
DataZoneStandard |
4,000 |
400万 |
| gpt-5.4 |
GlobalStandard |
150,000 |
15,000,000 |
| gpt-5.4-pro |
GlobalStandard |
2,400 |
2,400,000 |
| gpt-5.4-mini |
GlobalStandard |
15,000 |
15,000,000 |
| gpt-5.4-nano |
DataZoneStandard |
75,000 |
75,000,000 |
| gpt-5.4-nano |
GlobalStandard |
225,000 |
225,000,000 |
| gpt-5.5 |
DataZoneStandard |
4,000 |
400万 |
| gpt-5.5 |
GlobalStandard |
15,000 |
15,000,000 |
| gpt-聊天-最新 |
GlobalStandard |
80,000 |
8,000,000 |
| gpt-audio |
GlobalStandard |
45000 / 10秒 |
45,000,000 |
| gpt-image-1 |
GlobalStandard |
90 |
- |
| gpt-image-1-mini |
GlobalStandard |
180 |
- |
| gpt-image-1.5 |
DataZoneStandard |
30 |
- |
| gpt-image-1.5 |
GlobalStandard |
90 |
- |
| gpt-image-2 |
DataZoneStandard |
12 |
- |
| gpt-image-2 |
GlobalStandard |
36 |
- |
| gpt-realtime |
GlobalStandard |
300 |
150,000 |
| 模型路由器 |
DataZoneStandard |
4,000 |
400万 |
| 模型路由器 |
GlobalStandard |
15,000 |
15,000,000 |
| o1 |
DataZoneStandard |
2000 |
12,000,000 |
| o1 |
GlobalStandard |
8,000 |
48,000,000 |
| o3 |
DataZoneStandard |
4,000 |
400万 |
| o3 |
GlobalStandard |
15,000 |
15,000,000 |
| o3 深度研究 |
GlobalStandard |
45,000 |
45,000,000 |
| o3-mini |
DataZoneStandard |
3,000 |
30,000,000 |
| o3-mini |
GlobalStandard |
8,000 |
80,000,000 |
| o3-pro |
GlobalStandard |
2,400 |
24,000,000 |
| o4-mini |
DataZoneStandard |
4000 / 10s |
400万 |
| o4-mini |
GlobalStandard |
15,000 |
15,000,000 |
| text-embedding-3-large |
DataZoneStandard |
15,000 |
15,000,000 |
| text-embedding-3-large |
GlobalStandard |
15000 / 10秒 |
15,000,000 |
| text-embedding-3-small |
DataZoneStandard |
15,000 |
15,000,000 |
| text-embedding-3-small |
GlobalStandard |
15000 / 10秒 |
15,000,000 |
第 0 层
| 模型名称 |
部署类型 |
每分钟请求数 (RPM) |
每分钟标记数 (TPM) |
| gpt-4.1-mini |
GlobalStandard |
200 |
200,000 |
| gpt-5-mini |
GlobalStandard |
500 |
500,000 |
| o4-mini |
GlobalStandard |
100 |
100,000 |
| text-embedding-3-small |
GlobalStandard |
1000 / 10 秒 |
1,000,000 |
配额和限制参考
以下部分提供了适用于 Azure OpenAI 的默认配额和限制的快速指南:
| 限制名称 |
限制值 |
| 每个区域、每个 Azure 订阅的 Azure OpenAI 资源 |
30. |
| 默认 GPT-image-1 配额限制 |
每分钟 9 个请求 |
| 默认 GPT-image-1-mini 配额限制 |
每分钟 12 个请求 |
| 默认 GPT-image-1.5 配额限制 |
每分钟 9 个请求 |
| 默认 GPT-image-2 配额限制 |
每分钟 9 个请求 |
| 默认 Sora 配额限制 |
每分钟 60 个请求。 |
| 默认 Sora 2 配额限制 |
每分钟 2 个作业请求1 |
| 默认语音转文本音频 API 配额限制 |
每分钟 3 个请求。 |
| 每个请求的最大提示令牌数 |
根据模型而异。 有关详细信息,请参阅 Azure OpenAI 模型。 |
| 每个资源的最大标准部署数 |
32. |
| 最大微调模型部署 |
10. |
| 每个资源的训练作业总数 |
100. |
| 每个资源同时运行的最大训练作业数 |
标准和全球培训:3; 开发人员培训:5 |
| 排队的最大训练作业数 |
20. |
| 每个资源的最大文件数(微调) |
100. |
| 每个资源的所有文件的总大小(优调) |
1 GB。 |
| 最大训练作业时间(如果超出会导致作业失败) |
720 小时。 |
最大训练作业大小 (tokens in training file) x (# of epochs) |
20 亿。 |
| 每次上传的所有文件的最大大小 (Azure OpenAI On Your Data) |
16 MB。 |
使用 时,数组中的最大输入数 /embeddings |
2,048. |
每次 /embeddings 请求的最大令牌数(所有输入的总和) |
300,000. |
最大消息数/chat/completions |
2,048. |
最大 /chat/completions 函数数 |
128. |
工具的最大数量/chat/completions |
128. |
| 每个部署预配的吞吐量单位数上限 |
100,000. |
| 每个助理或线程的最大文件数 |
使用 API 或 Microsoft Foundry 门户时为 10,000。 |
| 助手功能与微调任务所支持的最大文件大小 |
512 MB 通过 API
通过 Foundry 门户时为 200 MB。 |
| 每个资源的最大文件上传请求数 |
每秒 30 个请求。 |
| 所有助理上传文件的最大大小 |
200 GB。 |
| 助理令牌限制值 |
2,000,000 个令牌的限制。 |
GPT-4o 以及 GPT-4.1 每个请求的最大图像数(消息数组或对话历史记录中的图像数) |
50. |
GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大令牌数 |
16.
请增加max_tokens参数值以避免响应被截断。
GPT-4o 最大令牌默认为 4,096。 |
| API 请求2 中自定义标头的最大数目 |
10. |
| 消息字符限制 |
1,048,576. |
| 音频文件的信息大小 |
20 MB。 |
1 Sora 2 RPM 配额仅计算视频任务请求。 其他类型的请求不受速率限制。
2 我们的当前 API 最多允许 10 个自定义标头,这些标头通过管道传递并返回。 某些客户现在超过此标头计数,这会导致 HTTP 431 错误。 除了减少标头的大小之外,此错误没有解决方案。 在未来的 API 版本中,我们不会传递自定义标头。 我们建议客户在未来的系统体系结构中不依赖于自定义标头。
批量限制
| 限制名称 |
限制值 |
| 最大批处理输入文件数 -(无过期时间) |
500 |
| 最大批处理输入文件数 -(已设置过期时间) |
一万 |
| 最大输入文件大小 |
200 MB |
| 最大输入文件大小 - 自带存储(BYOS) |
1GB |
| 每个文件的最大请求数 |
100,000 |
批处理配额
该表显示批次配额限制。 全局批处理的配额值以入队令牌表示。 提交文件以进行批处理时,将计算文件中的令牌数。 在批处理作业达到终态之前,这些令牌会计入你的总排队令牌限额中。
全局批处理
| 模型 |
企业和 MCA-E |
默认 |
基于信用卡的每月订阅 |
MSDN 订阅 |
面向学生的Azure免费试用版 |
gpt-4.1 |
5B |
200M |
50M |
90K |
N/A |
gpt-4.1 mini |
15B |
1B |
50M |
90K |
N/A |
gpt-4.1-nano |
15B |
1B |
50M |
90K |
N/A |
gpt-4o |
5B |
200M |
50M |
90K |
N/A |
gpt-4o-mini |
15B |
1B |
50M |
90K |
N/A |
gpt-4-turbo |
300兆字节 |
80M |
40M |
90K |
N/A |
gpt-4 |
150MB |
30百万 |
5百万 |
100K |
N/A |
o3-mini |
15B |
1B |
50M |
90K |
N/A |
o4-mini |
15B |
1B |
50M |
90K |
N/A |
gpt-5 |
5B |
200M |
50M |
90K |
N/A |
gpt-5.1 |
5B |
200M |
50M |
90K |
N/A |
B = 十亿 |M = 百万 |K = 千
数据区批处理
| 模型 |
企业和 MCA-E |
默认 |
基于信用卡的每月订阅 |
MSDN 订阅 |
面向学生的Azure免费试用版 |
gpt-4.1 |
500M |
30百万 |
30百万 |
90K |
N/A |
gpt-4.1-mini |
15亿 |
100兆字节 |
50M |
90K |
N/A |
gpt-4o |
500M |
30百万 |
30百万 |
90K |
N/A |
gpt-4o-mini |
15亿 |
100兆字节 |
50M |
90K |
N/A |
o3-mini |
15亿 |
100兆字节 |
50M |
90K |
N/A |
gpt-5 |
5B |
200M |
50M |
90K |
N/A |
gpt-5.1 |
5B |
200M |
50M |
90K |
N/A |
gpt-oss
| 模型 |
每分钟令牌数 (TPM) |
每分钟请求数 (RPM) |
gpt-oss-120b |
5米 |
5公里 |
使用级别
全局标准部署使用Azure的全局基础结构。 他们动态地将客户流量路由到最佳可用性的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许使用Azure的全局基础结构,以动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 对于低到中等流量级别的客户,这种做法将启用更加一致的延迟。 使用水平较高的客户可能会在响应延迟方面看到更大的变化。
Azure OpenAI 使用层旨在为大多数流量低到中等级别的客户提供一致的性能。 每个使用层级都定义在可预测延迟下可预计的最大吞吐量(每分钟令牌数)。 当使用量保留在分配的层内时,延迟将保持稳定,响应时间是一致的。
如果超出使用层,会发生什么情况?
- 如果请求吞吐量超过使用层(尤其是在高需求期间),则响应延迟可能会显著增加。
- 延迟可能会存在波动,在某些情况下,甚至可能比在你的使用层级内进行操作时高出两倍以上。
- 对于持续使用率较高或流量突发模式的客户而言,这种可变性最为明显。
如果您超过了使用级别,建议采取以下行动
如果遇到 429 个错误或注意到延迟可变性增加,应执行以下操作:
- 请求增加配额:请访问Azure门户,请求提高订阅配额。
- 请考虑升级到高级套餐 (PTU):对于延迟关键型或高流量工作负载,请升级到预配吞吐量单位(PTU)。 PTU 提供专用资源、保证的容量和可预测的延迟,即使在大规模范围内也是如此。 这是需要一致性能的任务关键型应用程序的最佳选择。
- 监视使用情况:定期查看 Azure 门户中的使用情况指标,以确保在层限制内运行。 根据需要调整工作负荷或部署策略。
即使令牌使用指标显示在配额下方,也可能收到 429 个(请求过多) 响应。 请参阅为什么即使令牌使用指标低于配额,你也可能看到 429,获取发生这种情况的原因解释。
使用限额决定了使用量级别,超出该级别时,客户可能会在响应延迟方面遇到更大的变化。 每个模型都定义了客户的使用情况。 它指的是:对于给定的租户,在其所有区域、所有订阅、所有部署中所消耗的令牌总数。
注意
使用层仅适用于标准、数据区域标准和全局标准部署类型。 使用层不适用于全局批处理和预配置的吞吐量部署。
全局标准、数据区域标准和标准
| 模型 |
每月使用等级 |
gpt-5 |
320 亿个令牌 |
gpt-5-mini |
1600 亿个令牌 |
gpt-5-nano |
8000 亿个令牌 |
gpt-5-chat |
320 亿个令牌 |
gpt-4
+
gpt-4-32k (所有版本) |
60 亿个令牌 |
gpt-4o |
120 亿个令牌 |
gpt-4o-mini |
850 亿个令牌 |
o3-mini |
500 亿个令牌 |
o1 |
40 亿个令牌 |
o4-mini |
500 亿个令牌 |
o3 |
50 亿个令牌 |
gpt-4.1 |
300 亿个令牌 |
gpt-4.1-mini |
1500 亿个令牌 |
gpt-4.1-nano |
5500 亿个令牌 |
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率限制相关的问题,最好使用以下技术:
- 在应用程序中实现重试逻辑。
- 避免工作负荷发生急剧更改。 逐渐增加工作负荷。
- 测试不同的负载增加模式。
- 增加指定给您部署的配额。 如有必要,请从另一个部署移动配额。
有关详细的最佳实践、带退避的重试代码示例以及 429 故障排除指南,请参阅 在 Microsoft Foundry Models 配额中管理 Azure OpenAI。
请求配额增加
提交配额增加申请表,为Azure 销售的 Foundry 模型、Azure OpenAI 模型和 Anthropic 模型申请增加配额。 除了Anthropic模型,来自合作伙伴和社区的模型都不支持增加配额。
配额增加请求按照收到的顺序进行处理,优先考虑那些积极使用现有配额分配的客户。 不符合此条件的请求可能会被拒绝。
区域配额容量限制
可以在 Foundry 门户中按订阅的区域查看配额可用性。
若要以编程方式检查配额和容量,请参阅配额管理指南中的 以编程方式检查配额和容量 。 本部分介绍两个互补 REST API:用于根据限制检查消耗 的使用情况 API ,以及 模型容量 API ,用于按模型和区域检查可用部署容量。
注意
目前,Foundry 门户和容量 API 都返回 已停用 且不再可用于新部署的模型的配额和容量信息。
相关内容