Azure OpenAI 服務配額和限制
本文包含 Azure AI 服務中的 Azure OpenAI 配額與限制的快速參考和詳細描述。
配額和限制參考
下列各節提供適用於 Azure OpenAI 之預設配額與限制的快速指南:
限制名稱 | 限制值 |
---|---|
每個 Azure 訂用帳戶每個區域的 OpenAI 資源 | 30 |
預設 DALL-E 2 配額限制 | 2 個並行要求 |
預設 DALL-E 3 配額限制 | 2 個容量單位 (每分鐘 6 個要求) |
預設 Whisper 配額限制 | 每分鐘 3 個要求 |
每個要求的提示權杖上限 | 依模型而有所不同。 如需詳細資訊,請參閱 Azure OpenAI 服務模型 (部分機器翻譯) |
最大微調模型部署 | 5 |
每個資源的訓練作業總數 | 100 |
每個資源同時執行定型作業數目上限 | 1 |
已排入佇列的定型作業上限 | 20 |
每個資源的檔案數目上限 (微調) | 50 |
每個資源的所有檔案大小總計 (微調) | 1 GB |
定型作業時間上限 (若超過則作業將失敗) | 720 小時 |
定型作業大小上限 (定型檔案中的權杖) x (Epoch 數目) | 20 億 |
每次上傳的所有檔案大小上限 (您資料上的 Azure OpenAI) | 16 MB |
陣列中具有 /embeddings 的最大數或輸入數 |
2048 |
/chat/completions 訊息數目上限 |
2048 |
/chat/completions 函式數目上限 |
128 |
/chat completions 工具數目上限 |
128 |
每個部署已佈建的輸送量單位數目上限 | 100,000 |
每個小幫手/執行緒的檔案上限 | 使用 API 或 AI Studio 時為 10,000。 使用 Azure OpenAI Studio 時為 20。 |
小幫手的檔案大小上限和微調 | 512 MB |
小幫手權杖限制 | 2,000,000 個權杖限制 |
GPT-4o 每個要求的最大影像數 (訊息陣列/交談記錄中的影像數目) | 10 |
GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 預設權杖上限 |
16 增加 max_tokens 參數值,以避免截斷回應。 GPT-4o 權杖上限預設為 4096。 |
區域配額限制
區域 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 30 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 K | 60 K | 80 K | - | - | 450 K 30 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 30 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 30 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 30 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 30 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
gpt-4o 速率限制
gpt-4o
針對特定客戶類型引進具有較高限制的速率限制層級。
gpt-4o - 全域標準
層 | 每分鐘權杖的配額限制 (TPM) | 每分鐘要求 |
---|---|---|
Enterprise 合約 | 30 M | 180 K |
預設 | 450 K | 2.7 K |
M = 百萬 | K = 千
gpt-4o 標準
層 | 每分鐘權杖的配額限制 (TPM) | 每分鐘要求 |
---|---|---|
Enterprise 合約 | 1 M | 6K |
預設 | 150 K | 900 |
M = 百萬 | K = 千
使用層
全域標準部署會使用 Azure 的全域基礎結構,以動態方式將客戶流量路由傳送至資料中心,並針對客戶的推斷要求提供最佳可用性。 這可為低到中層級流量的客戶啟用更一致的延遲。 具有高持續使用量層級的客戶可能會在回應延遲中看到更多變化。
使用限制會決定高於客戶在回應延遲中可能會看到較大變化的使用量層級。 每個模型都會定義客戶的使用量,而且是指定租用戶所有區域中所有訂用帳戶的所有部署中取用的總權杖。
GPT-4o 全域標準與標準
模型 | 每月使用量層級 |
---|---|
GPT-4o |
15 億個權杖 |
其他供應項目類型
如果您的 Azure 訂用帳戶連結到特定 供應項目案類型,您的配額值上限會低於上述表格中所指出的值。
層 | 每分鐘權杖的配額限制 (TPM) |
---|---|
Azure 學生版,免費試用 | 1 K (所有模型) |
MSDN 訂用帳戶 | GPT 3.5 Turbo 系列:30 K GPT-4 系列:8 K |
每月信用卡型訂閱 1 | GPT 3.5 Turbo 系列:30 K GPT-4 系列:8 K |
1 這目前適用於供應項目類型 0003P
在 Azure 入口網站中,您可以瀏覽至您的訂用帳戶並檢查訂用帳戶概觀窗格,以檢視訂用帳戶相關聯的供應項目類型。 供應項目類型會對應至訂用帳戶概觀中的方案欄位。
保持在速率限制內的一般最佳做法
若要盡量減少與速率限制相關的問題,最好使用下列技術:
- 在您的應用程式中實作重試邏輯。
- 避免工作負載急遽變化。 逐漸增加工作負載。
- 測試不同的負載增加模式。
- 增加指派給部署的配額。 視需要從另一個部署中移動配額。
如何要求增加預設配額與限制
您可以從 Azure OpenAI 工作室的 [配額] 頁面提交增加配額要求。 請注意,由於需求龐大,系統會接受配額增加要求,並會按照接收的順序填入。 優先順序會提供給產生耗用現有配額配置流量的客戶,如果不符合此條件,您的要求可能會遭到拒絕。
如需其他速率限制,請提交服務要求。
下一步
探索如何針對您的 Azure OpenAI 部署管理配額。 深入了解驅動 Azure OpenAI 的基礎模型。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應