你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 服务配额和限制

本文将介绍一个快速参考,并详细说明了 Azure AI 服务中 Azure OpenAI 的配额和限制。

配额和限制参考

以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南:

限制名称 限制值
每个 Azure 订阅中每个区域的 OpenAI 资源 30
默认 DALL-E 2 配额限制 2 个并发请求
默认 DALL-E 3 配额限制 2 个容量单位(每分钟 6 个请求)
每个请求的最大提示令牌数 每个模型不同。 有关更多信息,请参阅 Azure OpenAI 服务模型
最大微调模型部署 5
每个资源的训练作业总数 100
每个资源同时运行的最大训练作业数 1
排队的最大训练作业数 20
每个资源的最大文件数(优调) 50
每个资源的所有文件的总大小(优调) 1 GB
最大训练作业时间(如果超过,作业将失败) 720 小时
最大训练作业大小(训练文件中的标记数)×(时期数) 20 亿
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) 16 MB
数组中具有 /embeddings 的最大输入数 2048
最大 /chat/completions 消息数 2048
最大 /chat/completions 函数数 128
最大 /chat completions 工具数 128
每个部署预配的吞吐量单位数上限 100,000
每个助手/线程的最大文件数 20
助手和微调的最大文件大小 512 MB
助手令牌限制 令牌限制 2,000,000

区域配额限值

模型的默认配额因模型和区域而异。 默认配额限制可能会更改。

标准部署的配额按每分钟令牌数 (TPM) 进行描述。

区域 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o - GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - 微调 Davinci-002 Davinci-002 - 微调 GPT-35-Turbo - 微调 GPT-35-Turbo-1106 - 微调 GPT-35-Turbo-0125 - 微调 GPT-4 - finetune
australiaeast 40,000 80,000 80,000 30 K - - 300,000 - 350,000 - - - - - - - - - -
巴西南部 - - - - - - - - 350,000 - - - - - - - - - -
canadaeast 40,000 80,000 80,000 - - - 300,000 - 350,000 350,000 350,000 - - - - - - - -
eastus - - 80,000 - 150 K 450 K 240,000 240,000 240,000 350,000 350,000 - - - - - - - -
eastus2 - - 80,000 - 150 K 450 K 300,000 - 350,000 350,000 350,000 - - - - 250 K 250 K 250 K -
francecentral 20000 60 K 80,000 - - - 240,000 - 240,000 - 350,000 - - - - - - - -
日本东部 - - - 30 K - - 300,000 - 350,000 - 350,000 - - - - - - - -
northcentralus - - 80,000 - 150 K 450 K 300,000 - 350,000 - - 240,000 250 K 240,000 250 K 250 K 250 K 250 K 10 万
norwayeast - - 150 K - - - - - 350,000 - - - - - - - - - -
southafricanorth - - - - - - - - 350,000 - - - - - - - - - -
southcentralus - - 80,000 - 150 K 450 K 240,000 - 240,000 - - - - - - - - - -
southindia - - 150 K - - - 300,000 - 350,000 - 350,000 - - - - - - - -
瑞典中部 40,000 80,000 150 K 30 K - - 300,000 240,000 350,000 - 350,000 240,000 250 K 240,000 250 K 250 K 250 K 250 K 10 万
瑞士北部 40,000 80,000 - 30 K - - 300,000 - 350,000 - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K -
uksouth - - 80,000 - - - 240,000 - 350,000 - 350,000 - - - - - - - -
westeurope - - - - - - 240,000 - 240,000 - - - - - - - - - -
westus - - 80,000 30 K 150 K 450 K 300,000 - 350,000 - - - - - - - - - -
westus3 - - 80,000 - 150 K 450 K - - 350,000 - 350,000 - - - - - - - -

1 K = 1000 个每分钟令牌数 (TPM)。 TPM 与每分钟请求数 (RPM) 之间的关系目前定义为每 1000 个 TPM 对应 6 个 RPM

上表中适用于 GPT-4o 的值表示可供所有客户使用的默认配额值。 企业客户具有更大的配额分配

gpt-4o 速率限制

gpt-4o 引入了对某些客户类型限制更高的速率限制层级。

gpt-4o 全球标准

注意

全球标准模型部署类型目前为公共预览版。

每分钟令牌的配额限制 (TPM) 每分钟请求数
企业协议 10 M 60 K
默认 450 K 2.7 K

M = 百万 | K = 千

gpt-4o 标准

每分钟令牌的配额限制 (TPM) 每分钟请求数
企业协议 1 M 6K
默认 150 K 900

M = 百万 | K = 千

使用层

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

GPT-4o 全球标准和标准

模型 每月使用情况层级
GPT-4o 15 亿个令牌

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

如何请求增加默认配额和限制

可以通过 Azure OpenAI Studio 的“配额”页面提交配额增加请求。 请注意,由于需求量巨大,配额提高请求正在接受中,将按接收顺序处理。 将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。

对于其他速率限制,请提交服务请求

后续步骤

探索如何管理 Azure OpenAI 部署的配额。 详细了解为 Azure OpenAI 提供支持的基础模型