Azure OpenAI Service のクォータと制限

[アーティクル]
04/16/2024

この記事には、Azure AI サービス内の Azure OpenAI のクォータと制限に関するクイックリファレンスおよび詳細な説明が記載されています。

クォータと制限のリファレンス

以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイックガイドを提供します。

制限名	制限値
各 Azure サブスクリプションのリージョンあたりの OpenAI リソース数	30
既定の DALL-E 2 クォータ制限	2 同時要求
既定の DALL-E 3 クォータ制限	2 容量ユニット (1 分あたり 6 要求)
要求あたりの最大プロンプトトークン数	モデルごとに異なります。詳細については、「Azure OpenAI Service モデル」を参照してください。
微調整されたモデルデプロイの最大数	5
リソースあたりのトレーニングジョブの合計数	100
リソースあたりの同時実行トレーニングジョブの最大数	1
キューに入ったトレーニングジョブの最大数	20
リソースあたりの最大ファイル数 (微調整)	50
リソースあたりのすべてのファイルの合計サイズ (微調整)	1 GB
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します)	720 時間
トレーニングジョブの最大サイズ (トレーニングファイル内のトークン) x (エポックの数)	20 億
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI)	16 MB
`/embeddings` を含む配列内の最大数または入力数	2048
`/chat/completions` メッセージの最大数	2048
`/chat/completions` 関数の最大数	128
`/chat completions` ツールの最大数	128
デプロイあたりのプロビジョニングスループットユニットの最大数	100,000
アシスタント/スレッドあたりの最大ファイル数	20
アシスタントの最大ファイルサイズと微調整	512 MB
アシスタントトークンの制限	2,000,000 トークンの制限

リージョンのクォータ制限

モデルの既定のクォータは、モデルとリージョンによって異なります。既定のクォータ制限は変更される可能性があります。

標準的なデプロイのクォータは、1 分あたりのトークン数 (TPM) の観点から説明されています。

リージョン	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	40 K	80 K	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80 K	-	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K
francecentral	20 K	60 K	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-
swedencentral	40 K	80 K	150 K	30 K	300 K	240 K	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	40 K	80 K	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	80 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-

1 K = 1,000 TPM (1 分あたりのトークン数) TPM と 1 分あたりの要求数 (RPM) の関係は、現在、1,000 TPM あたり 6 RPM として定義されています。

レート制限内に収まるようにするための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイに割り当てられているクォータを増やします。必要に応じて、別のデプロイからクォータを移動します。

既定のクォータと制限の引き上げを要求する方法

クォータの増加要求は、Azure OpenAI Studio の [クォータ] ページから送信できます。需要が殺到しているため、受け付け中のクォータ引き上げの要求は、受領した順に処理されます。既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される可能性があります。

その他のレート制限については、サービスリクエストを送信してください。

次のステップ

Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。

Share via

Azure OpenAI Service のクォータと制限

クォータと制限のリファレンス

リージョンのクォータ制限

レート制限内に収まるようにするための一般的なベストプラクティス

既定のクォータと制限の引き上げを要求する方法

次のステップ

その他のリソース

Share via

Azure OpenAI Service のクォータと制限

クォータと制限のリファレンス

リージョンのクォータ制限

レート制限内に収まるようにするための一般的なベスト プラクティス

既定のクォータと制限の引き上げを要求する方法

次のステップ

その他のリソース

レート制限内に収まるようにするための一般的なベストプラクティス