Azure OpenAI 服務配額和限制
本文包含快速參考,以及 Azure AI 服務中 Azure OpenAI 配額和限制的詳細描述。
配額和限制參考
下列各節提供您適用於 Azure OpenAI 的預設配額和限制的快速指南:
限制名稱 | 限制值 |
---|---|
每個 Azure 訂用帳戶每個區域的 OpenAI 資源 | 30 |
預設 DALL-E 2 配額限制 | 2 個並行要求 |
預設 DALL-E 3 配額限制 | 2 個容量單位(每分鐘 6 個要求) |
每個要求的提示令牌上限 | 每個模型各有不同。 如需詳細資訊,請參閱 Azure OpenAI 服務模型 |
最大微調模型部署 | 5 |
每個資源的訓練作業總數 | 100 |
每個資源同時執行定型作業上限 | 1 |
已排入佇列的定型工作上限 | 20 |
每個資源的最大檔案數 (微調) | 50 |
每個資源所有檔案的大小總計 (微調) | 1 GB |
訓練作業時間上限(超過時作業將會失敗) | 720 小時 |
最大訓練作業大小 (訓練檔案中的令牌) x (epochs# ) | 20 億 |
每個上傳的所有檔案大小上限 (資料上的 Azure OpenAI) | 16 MB |
數位中的最大數位或輸入 /embeddings |
2048 |
訊息數目 /chat/completions 上限 |
2048 |
函式數目 /chat/completions 上限 |
128 |
工具數目 /chat completions 上限 |
128 |
每個部署的布建輸送量單位數目上限 | 100,000 |
每個小幫手/線程的檔案上限 | 20 |
小幫手和微調檔案大小上限 | 512 MB |
小幫手令牌限制 | 2,000,000 個令牌限制 |
區域配額限制
模型的預設配額會因模型和區域而異。 默認配額限制可能會變更。
標準部署的配額會以 每分鐘令牌(TPM)來說明。
區域 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-指示 | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | 達文奇-002 - 微調 | GPT-35-Turbo - 微調 | GPT-35-Turbo-1106 - 微調 | GPT-35-Turbo-0125 - 微調 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20 K | 60 K | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 300 K | 240 K | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 每分鐘 1000 個令牌(TPM)。 TPM 與每分鐘要求 (RPM) 之間的關聯性目前定義為每 1000 TPM 6 RPM。
保留速率限制的一般最佳做法
若要盡量減少與速率限制相關的問題,最好使用下列技術:
- 在您的應用程式中實作重試邏輯。
- 避免工作負載急遽變化。 逐漸增加工作負載。
- 測試不同的負載增加模式。
- 增加指派給您部署的配額。 如有必要,請從另一個部署移動配額。
如何要求增加預設配額和限制
您可以從 Azure OpenAI Studio 的 [配額] 頁面提交 配額 增加要求。 請注意,由於需求龐大,系統會接受配額增加要求,並會按照收到的順序填入。 優先順序會提供給產生耗用現有配額配置流量的客戶,如果不符合此條件,您的要求可能會遭到拒絕。
如需其他速率限制,請 提交服務要求。
下一步
探索如何 管理 Azure OpenAI 部署的配額 。 深入了解驅動 Azure OpenAI 的基礎模型。