你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure OpenAI 服务配额和限制
本文将介绍一个快速参考,并详细说明了 Azure AI 服务中 Azure OpenAI 的配额和限制。
配额和限制参考
以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南:
限制名称 | 限制值 |
---|---|
每个 Azure 订阅中每个区域的 OpenAI 资源 | 30 |
默认 DALL-E 2 配额限制 | 2 个并发请求 |
默认 DALL-E 3 配额限制 | 2 个容量单位(每分钟 6 个请求) |
每个请求的最大提示令牌数 | 每个模型不同。 有关更多信息,请参阅 Azure OpenAI 服务模型 |
最大微调模型部署 | 5 |
每个资源的训练作业总数 | 100 |
每个资源同时运行的最大训练作业数 | 1 |
排队的最大训练作业数 | 20 |
每个资源的最大文件数(优调) | 50 |
每个资源的所有文件的总大小(优调) | 1 GB |
最大训练作业时间(如果超过,作业将失败) | 720 小时 |
最大训练作业大小(训练文件中的标记数)×(时期数) | 20 亿 |
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB |
数组中具有 /embeddings 的最大输入数 |
2048 |
最大 /chat/completions 消息数 |
2048 |
最大 /chat/completions 函数数 |
128 |
最大 /chat completions 工具数 |
128 |
每个部署预配的吞吐量单位数上限 | 100,000 |
每个助手/线程的最大文件数 | 20 |
助手和微调的最大文件大小 | 512 MB |
助手令牌限制 | 令牌限制 2,000,000 |
区域配额限值
模型的默认配额因模型和区域而异。 默认配额限制可能会更改。
标准部署的配额按每分钟令牌数 (TPM) 进行描述。
区域 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - 微调 | Davinci-002 | Davinci-002 - 微调 | GPT-35-Turbo - 微调 | GPT-35-Turbo-1106 - 微调 | GPT-35-Turbo-0125 - 微调 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40,000 | 80,000 | 80,000 | 30 K | 300,000 | - | 350,000 | - | - | - | - | - | - | - | - | - |
巴西南部 | - | - | - | - | - | - | 350,000 | - | - | - | - | - | - | - | - | - |
canadaeast | 40,000 | 80,000 | 80,000 | - | 300,000 | - | 350,000 | 350,000 | 350,000 | - | - | - | - | - | - | - |
eastus | - | - | 80,000 | - | 240,000 | 240,000 | 240,000 | 350,000 | 350,000 | - | - | - | - | - | - | - |
eastus2 | - | - | 80,000 | - | 300,000 | - | 350,000 | 350,000 | 350,000 | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20000 | 60 K | 80,000 | - | 240,000 | - | 240,000 | - | - | - | - | - | - | - | - | - |
日本东部 | - | - | - | 30 K | 300,000 | - | 350,000 | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80,000 | - | 300,000 | - | 350,000 | - | - | 240,000 | 250 K | 240,000 | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | 150 K | - | - | - | 350,000 | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350,000 | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80,000 | - | 240,000 | - | 240,000 | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300,000 | - | 350,000 | - | - | - | - | - | - | - | - | - |
瑞典中部 | 40,000 | 80,000 | 150 K | 30 K | 300,000 | 240,000 | 350,000 | - | - | 240,000 | 250 K | 240,000 | 250 K | 250 K | 250 K | 250 K |
瑞士北部 | 40,000 | 80,000 | - | 30 K | 300,000 | - | 350,000 | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80,000 | - | 240,000 | - | 350,000 | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240,000 | - | 240,000 | - | - | - | - | - | - | - | - | - |
westus | - | - | 80,000 | 30 K | 300,000 | - | 350,000 | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80,000 | - | - | - | 350,000 | - | - | - | - | - | - | - | - | - |
1 K = 1000 个每分钟令牌数 (TPM)。 TPM 与每分钟请求数 (RPM) 之间的关系目前定义为每 1000 个 TPM 对应 6 个 RPM。
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。
如何请求增加默认配额和限制
可以通过 Azure OpenAI Studio 的“配额”页面提交配额增加请求。 请注意,由于需求量巨大,配额提高请求正在接受中,将按接收顺序处理。 将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。
对于其他速率限制,请提交服务请求。
后续步骤
探索如何管理 Azure OpenAI 部署的配额。 详细了解为 Azure OpenAI 提供支持的基础模型。