Azure OpenAI 服務配額和限制

本文包含快速參考,以及 Azure AI 服務中 Azure OpenAI 配額和限制的詳細描述。

配額和限制參考

下列各節提供您適用於 Azure OpenAI 的預設配額和限制的快速指南:

限制名稱 限制值
每個 Azure 訂用帳戶每個區域的 OpenAI 資源 30
預設 DALL-E 2 配額限制 2 個並行要求
預設 DALL-E 3 配額限制 2 個容量單位(每分鐘 6 個要求)
每個要求的提示令牌上限 每個模型各有不同。 如需詳細資訊,請參閱 Azure OpenAI 服務模型
最大微調模型部署 5
每個資源的訓練作業總數 100
每個資源同時執行定型作業上限 1
已排入佇列的定型工作上限 20
每個資源的最大檔案數 (微調) 50
每個資源所有檔案的大小總計 (微調) 1 GB
訓練作業時間上限(超過時作業將會失敗) 720 小時
最大訓練作業大小 (訓練檔案中的令牌) x (epochs# ) 20 億
每個上傳的所有檔案大小上限 (資料上的 Azure OpenAI) 16 MB
數位中的最大數位或輸入 /embeddings 2048
訊息數目 /chat/completions 上限 2048
函式數目 /chat/completions 上限 128
工具數目 /chat completions 上限 128
每個部署的布建輸送量單位數目上限 100,000
每個小幫手/線程的檔案上限 20
小幫手和微調檔案大小上限 512 MB
小幫手令牌限制 2,000,000 個令牌限制

區域配額限制

模型的預設配額會因模型和區域而異。 默認配額限制可能會變更。

標準部署的配額會以 每分鐘令牌(TPM)來說明。

區域 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-指示 Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - finetune Davinci-002 達文奇-002 - 微調 GPT-35-Turbo - 微調 GPT-35-Turbo-1106 - 微調 GPT-35-Turbo-0125 - 微調
australiaeast 40 K 80 K 80 K 30 K 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 K 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80 K - 240 K 240 K 240 K 350 K 350 K - - - - - - -
eastus2 - - 80 K - 300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K
francecentral 20 K 60 K 80 K - 240 K - 240 K - - - - - - - - -
japaneast - - - 30 K 300 K - 350 K - - - - - - - - -
northcentralus - - 80 K - 300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - 350 K - - - - - - - - -
southafricanorth - - - - - - 350 K - - - - - - - - -
southcentralus - - 80 K - 240 K - 240 K - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 300 K 240 K 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth 40 K 80 K - 30 K 300 K - 350 K - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - 240 K - 350 K - - - - - - - - -
westeurope - - - - 240 K - 240 K - - - - - - - - -
westus - - 80 K 30 K 300 K - 350 K - - - - - - - - -
westus3 - - 80 K - - - 350 K - - - - - - - - -

1 K = 每分鐘 1000 個令牌(TPM)。 TPM 與每分鐘要求 (RPM) 之間的關聯性目前定義為每 1000 TPM 6 RPM。

保留速率限制的一般最佳做法

若要盡量減少與速率限制相關的問題,最好使用下列技術:

  • 在您的應用程式中實作重試邏輯。
  • 避免工作負載急遽變化。 逐漸增加工作負載。
  • 測試不同的負載增加模式。
  • 增加指派給您部署的配額。 如有必要,請從另一個部署移動配額。

如何要求增加預設配額和限制

您可以從 Azure OpenAI Studio 的 [配額] 頁面提交 配額 增加要求。 請注意,由於需求龐大,系統會接受配額增加要求,並會按照收到的順序填入。 優先順序會提供給產生耗用現有配額配置流量的客戶,如果不符合此條件,您的要求可能會遭到拒絕。

如需其他速率限制,請 提交服務要求

下一步

探索如何 管理 Azure OpenAI 部署的配額 。 深入了解驅動 Azure OpenAI 的基礎模型