Azure OpenAI 服務配額和限制

文章
10/31/2024

本文包含 Azure AI 服務中的 Azure OpenAI 配額與限制的快速參考和詳細描述。

配額和限制參考

下列各節提供適用於 Azure OpenAI 之預設配額與限制的快速指南：

限制名稱	限制值
每個 Azure 訂用帳戶每個區域的 OpenAI 資源	30
預設 DALL-E 2 配額限制	2 個並行要求
預設 DALL-E 3 配額限制	2 個容量單位 (每分鐘 6 個要求)
預設 Whisper 配額限制	每分鐘 3 個要求
每個要求的提示權杖上限	依模型而有所不同。如需詳細資訊，請參閱 Azure OpenAI 服務模型 (部分機器翻譯)
每個資源的最大標準部署數	32
最大微調模型部署	5
每個資源的訓練作業總數	100
每個資源同時執行定型作業數目上限	1
已排入佇列的定型作業上限	20
每個資源的檔案數目上限 (微調)	50
每個資源的所有檔案大小總計 (微調)	1 GB
定型作業時間上限 (若超過則作業將失敗)	720 小時
定型作業大小上限 (定型檔案中的權杖) x (Epoch 數目)	20 億
每次上傳的所有檔案大小上限 (您資料上的 Azure OpenAI)	16 MB
陣列中具有 `/embeddings` 的最大數或輸入數	2048
`/chat/completions` 訊息數目上限	2048
`/chat/completions` 函式數目上限	128
`/chat completions` 工具數目上限	128
每個部署已佈建的輸送量單位數目上限	100,000
每個小幫手/執行緒的檔案上限	使用 API 或 AI Studio 時為 10,000。使用 Azure OpenAI Studio 時為 20。
小幫手的檔案大小上限和微調	512 MB
所有小幫手上傳檔案大小上限	100 GB
小幫手權杖限制	2,000,000 個權杖限制
GPT-4o 每個要求的最大影像數 (訊息陣列/交談記錄中的影像數目)	10
GPT-4 `vision-preview` 和 GPT-4 `turbo-2024-04-09` 預設權杖上限	16 增加 `max_tokens` 參數值，以避免截斷回應。 GPT-4o 權杖上限預設為 4096。
API 要求中的自訂標頭數目上限 ¹	10

¹ 我們目前的 API 最多允許 10 個自訂標頭，這些標頭會透過管線傳遞並傳回。我們注意到目前有一些客戶已超過此標頭數量，從而導致 HTTP 431 錯誤。除了減少標頭數量外，沒有其他針對此錯誤的解決方案。 在未來的 API 版本中，我們不會再透過自訂標頭進行傳遞。我們建議客戶在未來的系統架構中不要依賴自訂標頭。

區域配額限制

區域	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 - Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 - finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 公尺	240 K	240 K	50 公尺	30 M	30 M	50 公尺	2 公尺	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 公尺	300 K	-	50 公尺	30 M	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 K	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 公尺	300 K	-	50 公尺	30 M	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	-	250 K	50 萬個	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 K	-	1 M	2 公尺	240 K	-	50 公尺	30 M	30 M	50 公尺	2 公尺	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 公尺	300 K	240 K	50 公尺	30 M	30 M	50 公尺	2 公尺	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	50 萬個	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 公尺	2 公尺	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 公尺	300 K	-	50 公尺	30 M	30 M	50 公尺	2 公尺	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 公尺	300 K	-	50 公尺	30 M	30 M	50 公尺	2 公尺	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

全域批次限制

限制名稱	限制值
每個資源的檔案數目上限	500
輸入檔案大小上限	200 MB
每個檔案的要求數目上限	100,000

全域批次配額

下表顯示批次配額限制。全域批次的配額值會以加入佇列的權杖表示。當您提交檔案進行批次處理時，就會計算檔案中存在的權杖數目。在批次作業達到終端狀態之前，這些權杖將會計入您加入佇列的權杖總計限制。

Model	Enterprise 合約	預設	每月信用卡型訂閱	MSDN 訂用帳戶	Azure 學生版，免費試用
`gpt-4o`	5 B	200 M	50 公尺	90 K	N/A
`gpt-4o-mini`	15 B	1 B	50 公尺	90 K	N/A
`gpt-4-turbo`	300 M	80 M	40 M	90 K	N/A
`gpt-4`	150 M	30 M	5 M	100 K	N/A
`gpt-35-turbo`	10 B	1 B	100 M	2 公尺	50 K

B = 十億 | M = 百萬 | K = 千

o1-preview & o1-mini 速率限制

重要

與舊版聊天完成模型不同，o1 系列模型配額的 RPM/TPM 比率的運作方式與舊版聊天完成模型不同：

較舊的聊天模型： 1 個容量單位 = 6 RPM 和 1,000 TPM。
o1-preview： 1 個容量單位 = 1 RPM 和 6,000 TPM。
o1-mini： 1 單位容量 = 每 10,000 TPM 1 RPM。

對於程序設計模型部署來說，這特別重要，因為如果一個仍然假設 1：1000 的比例，後面接著較舊的聊天完成模型，此變更會導致不小心配置配額。

配額/使用量 API 有一個已知問題，其中假設舊的比率適用於新的 o1 系列模型。 API 會傳回正確的基底容量號碼，但不會針對 TPM 的準確計算套用正確的比率。

o1-preview & o1-mini global standard

Model	層	每分鐘權杖的配額限制 (TPM)	每分鐘要求
`o1-preview`	Enterprise 合約	30 M	5 K
`o1-mini`	Enterprise 合約	50 公尺	5 K
`o1-preview`	預設	3 M	500
`o1-mini`	預設	5 M	500

o1-preview & o1-mini 標準

Model	層	每分鐘權杖的配額限制 (TPM)	每分鐘要求
`o1-preview`	Enterprise 合約	600 K	100
`o1-mini`	Enterprise 合約	1 M	100
`o1-preview`	預設	300 K	50
`o1-mini`	預設	50 萬個	50

gpt-4o & GPT-4 Turbo 速率限制

gpt-4o 和 gpt-4o-mini 以及 gpt-4 (turbo-2024-04-09) 針對特定客戶類型具有較高限制的速率限制層級。

gpt-4o & GPT-4 Turbo 全域標準

Model	層	每分鐘權杖的配額限制 (TPM)	每分鐘要求
`gpt-4o`	Enterprise 合約	30 M	180 K
`gpt-4o-mini`	Enterprise 合約	50 公尺	300 K
`gpt-4` (turbo-2024-04-09)	Enterprise 合約	2 公尺	12 K
`gpt-4o`	預設	450 K	2.7 K
`gpt-4o-mini`	預設	2 公尺	12 K
`gpt-4` (turbo-2024-04-09)	預設	450 K	2.7 K

M = 百萬 | K = 千

gpt-4o 數據區標準

Model	層	每分鐘權杖的配額限制 (TPM)	每分鐘要求
`gpt-4o`	Enterprise 合約	10 M	60 K
`gpt-4o-mini`	Enterprise 合約	20 M	120 K
`gpt-4o`	預設	300 K	1.8 K
`gpt-4o-mini`	預設	1 M	6K

M = 百萬 | K = 千

gpt-4o 標準

Model	層	每分鐘權杖的配額限制 (TPM)	每分鐘要求
`gpt-4o`	Enterprise 合約	1 M	6K
`gpt-4o-mini`	Enterprise 合約	2 公尺	12 K
`gpt-4o`	預設	150 K	900
`gpt-4o-mini`	預設	450 K	2.7 K

M = 百萬 | K = 千

使用層

全域標準部署會使用 Azure 的全域基礎結構，以動態方式將客戶流量路由傳送至數據中心，並針對客戶的推斷要求提供最佳可用性。同樣地，數據區標準部署可讓您利用 Azure 全域基礎結構，以動態方式將流量路由傳送至Microsoft定義數據區內的數據中心，併為每個要求提供最佳可用性。這可為低到中層級流量的客戶啟用更一致的延遲。具有高持續使用量層級的客戶可能會在回應延遲中看到更多變化。

使用限制會決定高於客戶在回應延遲中可能會看到較大變化的使用量層級。每個模型都會定義客戶的使用量，而且是指定租用戶所有區域中所有訂用帳戶的所有部署中取用的總權杖。

注意

使用層僅適用於標準、數據區標準和全域標準部署類型。使用層不適用於全域批次和佈建的輸送量部署。

GPT-4o 全球標準、數據區標準及標準

Model	每月使用量層級
`gpt-4o`	120 億個令牌
`gpt-4o-mini`	850 億個令牌

GPT-4 標準

Model	每月使用量層級
`gpt-4` + `gpt-4-32k` (所有版本)	60 億

其他供應項目類型

如果您的 Azure 訂用帳戶連結到特定供應項目案類型，您的配額值上限會低於上述表格中所指出的值。

層	每分鐘權杖的配額限制 (TPM)
Azure 學生版，免費試用	1 K (所有模型)
MSDN 訂用帳戶	GPT 3.5 Turbo 系列：30 K GPT-4 系列：8 K
每月信用卡型訂閱 ¹	GPT 3.5 Turbo 系列：30 K GPT-4 系列：8 K

¹ 這目前適用於供應項目類型 0003P

在 Azure 入口網站中，您可以瀏覽至您的訂用帳戶並檢查訂用帳戶概觀窗格，以檢視訂用帳戶相關聯的供應項目類型。供應項目類型會對應至訂用帳戶概觀中的方案欄位。

保持在速率限制內的一般最佳做法

若要盡量減少與速率限制相關的問題，最好使用下列技術:

在您的應用程式中實作重試邏輯。
避免工作負載急遽變化。逐漸增加工作負載。
測試不同的負載增加模式。
增加指派給部署的配額。視需要從另一個部署中移動配額。

如何要求增加預設配額與限制

您可以從 Azure AI Studio 的 [配額] 頁面提交配額增加要求。請注意，由於需求龐大，系統會接受配額增加要求，並會按照接收的順序填入。優先順序會提供給產生耗用現有配額配置流量的客戶，如果不符合此條件，您的要求可能會遭到拒絕。

如需其他速率限制，請提交服務要求。

下一步

探索如何針對您的 Azure OpenAI 部署管理配額。深入了解驅動 Azure OpenAI 的基礎模型。

分享方式：

Azure OpenAI 服務配額和限制

配額和限制參考

區域配額限制

全域批次限制

全域批次配額

o1-preview & o1-mini 速率限制

o1-preview & o1-mini global standard

o1-preview & o1-mini 標準

gpt-4o & GPT-4 Turbo 速率限制

gpt-4o & GPT-4 Turbo 全域標準

gpt-4o 數據區標準

gpt-4o 標準

使用層

GPT-4o 全球標準、數據區標準及標準

GPT-4 標準

其他供應項目類型

保持在速率限制內的一般最佳做法

如何要求增加預設配額與限制

下一步

意見反映

更多資源