你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure OpenAI 服务配额和限制

本文将介绍一个快速参考，并详细说明了 Azure AI 服务中 Azure OpenAI 的配额和限制。

配额和限制参考

以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南：

限制名称	限制值
每个 Azure 订阅中每个区域的 OpenAI 资源	30
默认 DALL-E 2 配额限制	2 个并发请求
默认 DALL-E 3 配额限制	2 个容量单位（每分钟 6 个请求）
每个请求的最大提示令牌数	每个模型不同。有关更多信息，请参阅 Azure OpenAI 服务模型
最大微调模型部署	5
每个资源的训练作业总数	100
每个资源同时运行的最大训练作业数	1
排队的最大训练作业数	20
每个资源的最大文件数（优调）	50
每个资源的所有文件的总大小（优调）	1 GB
最大训练作业时间（如果超过，作业将失败）	720 小时
最大训练作业大小（训练文件中的标记数）×（时期数）	20 亿
每次上传的所有文件的最大大小（数据上的 Azure OpenAI）	16 MB
数组中具有 `/embeddings` 的最大输入数	2048
最大 `/chat/completions` 消息数	2048
最大 `/chat/completions` 函数数	128
最大 `/chat completions` 工具数	128
每个部署预配的吞吐量单位数上限	100,000
每个助手/线程的最大文件数	20
助手和微调的最大文件大小	512 MB
助手令牌限制	令牌限制 2,000,000

模型的默认配额因模型和区域而异。默认配额限制可能会更改。

标准部署的配额按每分钟令牌数 (TPM) 进行描述。

区域	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o - GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - 微调	Davinci-002	Davinci-002 - 微调	GPT-35-Turbo - 微调	GPT-35-Turbo-1106 - 微调	GPT-35-Turbo-0125 - 微调	GPT-4 - finetune
australiaeast	40,000	80,000	80,000	30 K	-	-	300,000	-	350,000	-	-	-	-	-	-	-	-	-	-
巴西南部	-	-	-	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-
canadaeast	40,000	80,000	80,000	-	-	-	300,000	-	350,000	350,000	350,000	-	-	-	-	-	-	-	-
eastus	-	-	80,000	-	150 K	450 K	240,000	240,000	240,000	350,000	350,000	-	-	-	-	-	-	-	-
eastus2	-	-	80,000	-	150 K	450 K	300,000	-	350,000	350,000	350,000	-	-	-	-	250 K	250 K	250 K	-
francecentral	20000	60 K	80,000	-	-	-	240,000	-	240,000	-	350,000	-	-	-	-	-	-	-	-
日本东部	-	-	-	30 K	-	-	300,000	-	350,000	-	350,000	-	-	-	-	-	-	-	-
northcentralus	-	-	80,000	-	150 K	450 K	300,000	-	350,000	-	-	240,000	250 K	240,000	250 K	250 K	250 K	250 K	10 万
norwayeast	-	-	150 K	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80,000	-	150 K	450 K	240,000	-	240,000	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	-	-	300,000	-	350,000	-	350,000	-	-	-	-	-	-	-	-
瑞典中部	40,000	80,000	150 K	30 K	-	-	300,000	240,000	350,000	-	350,000	240,000	250 K	240,000	250 K	250 K	250 K	250 K	10 万
瑞士北部	40,000	80,000	-	30 K	-	-	300,000	-	350,000	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K	-
uksouth	-	-	80,000	-	-	-	240,000	-	350,000	-	350,000	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240,000	-	240,000	-	-	-	-	-	-	-	-	-	-
westus	-	-	80,000	30 K	150 K	450 K	300,000	-	350,000	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80,000	-	150 K	450 K	-	-	350,000	-	350,000	-	-	-	-	-	-	-	-

1 K = 1000 个每分钟令牌数 (TPM)。 TPM 与每分钟请求数 (RPM) 之间的关系目前定义为每 1000 个 TPM 对应 6 个 RPM。

上表中适用于 GPT-4o 的值表示可供所有客户使用的默认配额值。企业客户具有更大的配额分配。

gpt-4o 引入了对某些客户类型限制更高的速率限制层级。

注意

层	每分钟令牌的配额限制 (TPM)	每分钟请求数
企业协议	10 M	60 K
默认	450 K	2.7 K

M = 百万 | K = 千

层	每分钟令牌的配额限制 (TPM)	每分钟请求数
企业协议	1 M	6K
默认	150 K	900

M = 百万 | K = 千

全球标准部署使用 Azure 的全球基础结构，将客户流量动态路由到可用性最好的数据中心，以满足客户的推理请求。这样，对于流量低到中等级别的客户，这可实现更一致的延迟。持续使用率较高的客户可能会发现响应延迟的可变性更高。

使用限制决定了使用水平，超过该水平客户可能会看到响应延迟的可变性更高。客户使用情况按模型定义，是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

模型	每月使用情况层级
`GPT-4o`	15 亿个令牌

若要最大程度地减少与速率上限相关的问题，可以遵循以下方法：

可以通过 Azure OpenAI Studio 的“配额”页面提交配额增加请求。请注意，由于需求量巨大，配额提高请求正在接受中，将按接收顺序处理。将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件，你的请求可能会被拒绝。

对于其他速率限制，请提交服务请求。

探索如何管理 Azure OpenAI 部署的配额。详细了解为 Azure OpenAI 提供支持的基础模型。