Azure OpenAI Service のクォータと制限

[アーティクル]
10/23/2024

この記事には、Azure AI サービス内の Azure OpenAI のクォータと制限に関するクイックリファレンスおよび詳細な説明が記載されています。

クォータと制限のリファレンス

以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイックガイドを提供します。

制限名	制限値
各 Azure サブスクリプションのリージョンあたりの OpenAI リソース数	30
既定の DALL-E 2 クォータ制限	2 同時要求
既定の DALL-E 3 クォータ制限	2 容量ユニット (1 分あたり 6 要求)
既定の Whisper クォータ制限	1 分あたり 3 要求
要求あたりの最大プロンプトトークン数	モデルごとに異なります。詳細については、「Azure OpenAI Service モデル」を参照してください。
リソースあたりの最大 Standard デプロイ数	32
微調整されたモデルデプロイの最大数	5
リソースあたりのトレーニングジョブの合計数	100
リソースあたりの同時実行トレーニングジョブの最大数	1
キューに入ったトレーニングジョブの最大数	20
リソースあたりの最大ファイル数 (微調整)	50
リソースあたりのすべてのファイルの合計サイズ (微調整)	1 GB
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します)	720 時間
トレーニングジョブの最大サイズ (トレーニングファイル内のトークン) x (エポックの数)	20 億
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI)	16 MB
`/embeddings` を含む配列内の最大数または入力数	2048
`/chat/completions` メッセージの最大数	2048
`/chat/completions` 関数の最大数	128
`/chat completions` ツールの最大数	128
デプロイあたりのプロビジョニングスループットユニットの最大数	100,000
アシスタント/スレッドあたりの最大ファイル数	API または AI Studio を使用する場合は 10,000。 Azure OpenAI Studio を使用する場合は 20。
アシスタントの最大ファイルサイズと微調整	512 MB
アシスタント用にアップロードされたすべてのファイルの最大サイズ	100 GB
アシスタントトークンの制限	2,000,000 トークンの制限
GPT-4o 要求あたりの最大イメージ数 (メッセージ配列/会話履歴のイメージの数)	10
GPT-4 `vision-preview` と GPT-4 `turbo-2024-04-09` 既定の最大トークン数	16 応答が切り捨てられないように `max_tokens` パラメーター値を増やします。 GPT-4o 最大トークン数の既定値は 4096 です。
API 要求内のカスタムヘッダーの最大数¹	10

¹ 現在の API は最大 10 個のカスタムヘッダーを許容しており、これらはパイプラインを通過して返されます。一部のお客様はこのヘッダー数を超過しており、HTTP 431 エラーが発生していることが判明しています。ヘッダーボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタムヘッダーの通過を停止します。今後のシステムアーキテクチャでは、カスタムヘッダーに依存しないことをお勧めします。

リージョンのクォータ制限

リージョン	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 - Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - finetune	GPT-4o-mini - finetune	GPT-4 - finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 K	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

グローバルバッチ制限

制限名	制限値
リソースあたりの最大ファイル数	500
最大入力ファイルサイズ	200 MB
ファイルあたりの最大要求数	100,000

グローバルバッチクォータ

次の表はバッチのクォータ制限を示したものです。グローバルバッチのクォータ値は、エンキューされたトークンの数で表されます。バッチ処理用のファイルを送信すると、ファイル内に存在するトークンの数がカウントされます。バッチジョブが終了状態になるまで、これらのトークンはエンキューされたトークンの合計の制限に対してカウントされます。

モデル	エンタープライズ契約	既定値	月単位のクレジットカードベースのサブスクリプション	MSDN サブスクリプション	Microsoft Azure for Students、無料試用版
`gpt-4o`	5 B	200 M	50 M	90 K	該当なし
`gpt-4o-mini`	15 B	1 B	50 M	90 K	該当なし
`gpt-4-turbo`	300 M	80 M	40 M	90 K	該当なし
`gpt-4`	150 M	30 M	5 M	100 K	該当なし
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 K

B = 10 億 | M = 100万 | K = 1,000

o1-preview と o1-mini のレート制限

重要

o1 シリーズモデルのクォータの RPM/TPM 比率は、以前のチャット入力候補モデルとは動作が異なります。

以前のチャットモデル: 1 単位の容量 = 6 RPM および 1,000 TPM。
o1-preview: 1 単位の容量 = 1 RPM および 6,000 TPM。
o1-mini: 1 単位の容量 = 10,000 TPM あたり 1 RPM。

これは、プログラムによるモデルデプロイにとって特に重要です。以前のチャット入力候補モデルに従って 1:1000 の比率を前提としている場合、この RPM/TPM 比率の変更により、誤ってクォータの割り当て不足になる可能性があるためです。

クォータ/使用量 API には、以前の比率が新しい o1 シリーズモデルに適用されると想定する既知の問題があります。 API は正しい基本の最大利用可能時間の数値を返しますが、TPM を正確に計算するための正しい比率は適用されません。

o1-preview と o1-mini のグローバル標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`o1-preview`	エンタープライズ契約	30 M	5 K
`o1-mini`	エンタープライズ契約	50 M	5 K
`o1-preview`	既定値	3 M	500
`o1-mini`	既定値	5 M	500

o1-preview と o1-mini の標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`o1-preview`	エンタープライズ契約	600 K	100
`o1-mini`	エンタープライズ契約	1 M	100
`o1-preview`	既定値	300 K	50
`o1-mini`	既定値	500 K	50

gpt-4o および GPT-4 Turbo のレート制限

gpt-4o と gpt-4o-mini、および gpt-4 (turbo-2024-04-09) には特定のタイプのお客様向けのより高い上限を持つレート制限レベルが存在します。

gpt-4o および GPT-4 Turbo グローバルスタンダード

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o`	エンタープライズ契約	30 M	180 K
`gpt-4o-mini`	エンタープライズ契約	50 M	300 K
`gpt-4` (turbo-2024-04-09)	エンタープライズ契約	2 M	12 K
`gpt-4o`	既定値	450 K	2.7 K
`gpt-4o-mini`	既定値	2 M	12 K
`gpt-4` (turbo-2024-04-09)	既定値	450 K	2.7 K

M = 100 万 | K = 1,000

gpt-4o データゾーン標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o`	エンタープライズ契約	10 M	60 K
`gpt-4o-mini`	エンタープライズ契約	20,000,000	120 K
`gpt-4o`	既定値	300 K	1.8 K
`gpt-4o-mini`	既定値	1 M	6 K

M = 100 万 | K = 1,000

gpt-4o Standard

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o`	エンタープライズ契約	1 M	6 K
`gpt-4o-mini`	エンタープライズ契約	2 M	12 K
`gpt-4o`	既定値	150 K	900
`gpt-4o-mini`	既定値	450 K	2.7 K

M = 100 万 | K = 1,000

使用量レベル

グローバル標準のデプロイでは、Azure のグローバルインフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータセンターに動的にルーティングされます。データゾーン標準のデプロイでは、Azure のグローバルインフラストラクチャを利用して、要求ごとに最適な可用性の Microsoft によって定義されたデータゾーン内のデータセンターに動的にトラフィックをルーティングできます。これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。

使用制限によって、その使用量レベルを超えると応答待ち時間のばらつきが増す可能性があるお客様が決定されます。顧客の使用量はモデルごとに定義され、この量は、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

Note

使用量レベルは、標準、データゾーン標準、グローバル標準のデプロイの種類に対してだけ適用されます。使用レベルは、グローバルバッチおよびプロビジョニングスループットのデプロイには適用されません。

GPT-4o のグローバル標準、データゾーン標準、標準

モデル	1 か月あたりの使用量レベル
`gpt-4o`	120 億トークン
`gpt-4o-mini`	850 億トークン

GPT-4 standard

モデル	1 か月あたりの使用量レベル
`gpt-4` + `gpt-4-32k` (すべてのバージョン)	60 億

その他のプランの種類

Azure サブスクリプションが特定のオファーの種類にリンクされている場合、最大クォータは上記の表に示されている値より低くなります。

レベル	クォータ制限 (トークン/分) (TPM)
Microsoft Azure for Students、無料試用版	1 K (すべてのモデル)
MSDN サブスクリプション	GPT 3.5 Turbo シリーズ: 30 K GPT-4 シリーズ: 8 K
月単位のクレジットカードベースのサブスクリプション ¹	GPT 3.5 Turbo シリーズ: 30 K GPT-4 シリーズ: 8 K

¹ これは現在、オファーの種類 0003P に適用されます

Azure portal で、サブスクリプションに関連付けられているオファーの種類を確認するには、サブスクリプションに移動し、サブスクリプションの概要ウィンドウをチェックします。オファーの種類は、サブスクリプションの概要の [プラン] フィールドに対応します。

レート制限内に収まるようにするための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイに割り当てられているクォータを増やします。必要に応じて、別のデプロイからクォータを移動します。

既定のクォータと制限の引き上げを要求する方法

クォータの増加要求は、Azure AI Studio の [クォータ] ページから送信できます。需要が殺到しているため、受け付け中のクォータ引き上げ要求は受け付けられた順に処理されることに注意してください。既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。

その他のレート制限については、サービス要求を送信してください。

次のステップ

Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。

次の方法で共有

Azure OpenAI Service のクォータと制限

クォータと制限のリファレンス

リージョンのクォータ制限

グローバルバッチ制限

グローバルバッチクォータ

o1-preview と o1-mini のレート制限

o1-preview と o1-mini のグローバル標準

o1-preview と o1-mini の標準

gpt-4o および GPT-4 Turbo のレート制限

gpt-4o および GPT-4 Turbo グローバルスタンダード

gpt-4o データゾーン標準

gpt-4o Standard

使用量レベル

GPT-4o のグローバル標準、データゾーン標準、標準

GPT-4 standard

その他のプランの種類

レート制限内に収まるようにするための一般的なベストプラクティス

既定のクォータと制限の引き上げを要求する方法

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure OpenAI Service のクォータと制限

クォータと制限のリファレンス

リージョンのクォータ制限

グローバル バッチ制限

グローバル バッチ クォータ

o1-preview と o1-mini のレート制限

o1-preview と o1-mini のグローバル標準

o1-preview と o1-mini の標準

gpt-4o および GPT-4 Turbo のレート制限

gpt-4o および GPT-4 Turbo グローバル スタンダード

gpt-4o データ ゾーン標準

gpt-4o Standard

使用量レベル

GPT-4o のグローバル標準、データ ゾーン標準、標準

GPT-4 standard

その他のプランの種類

レート制限内に収まるようにするための一般的なベスト プラクティス

既定のクォータと制限の引き上げを要求する方法

次のステップ

フィードバック

その他のリソース

グローバルバッチ制限

グローバルバッチクォータ

gpt-4o および GPT-4 Turbo グローバルスタンダード

gpt-4o データゾーン標準

GPT-4o のグローバル標準、データゾーン標準、標準

レート制限内に収まるようにするための一般的なベストプラクティス