Share via


Azure OpenAI Service のクォータと制限

この記事には、Azure AI サービス内の Azure OpenAI のクォータと制限に関するクイック リファレンスおよび詳細な説明が記載されています。

クォータと制限のリファレンス

以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイック ガイドを提供します。

制限名 制限値
各 Azure サブスクリプションのリージョンあたりの OpenAI リソース数 30
既定の DALL-E 2 クォータ制限 2 同時要求
既定の DALL-E 3 クォータ制限 2 容量ユニット (1 分あたり 6 要求)
要求あたりの最大プロンプト トークン数 モデルごとに異なります。 詳細については、「Azure OpenAI Service モデル」を参照してください。
微調整されたモデル デプロイの最大数 5
リソースあたりのトレーニング ジョブの合計数 100
リソースあたりの同時実行トレーニング ジョブの最大数 1
キューに入ったトレーニング ジョブの最大数 20
リソースあたりの最大ファイル数 (微調整) 50
リソースあたりのすべてのファイルの合計サイズ (微調整) 1 GB
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します) 720 時間
トレーニング ジョブの最大サイズ (トレーニング ファイル内のトークン) x (エポックの数) 20 億
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI) 16 MB
/embeddings を含む配列内の最大数または入力数 2048
/chat/completions メッセージの最大数 2048
/chat/completions 関数の最大数 128
/chat completions ツールの最大数 128
デプロイあたりのプロビジョニング スループット ユニットの最大数 100,000
アシスタント/スレッドあたりの最大ファイル数 20
アシスタントの最大ファイル サイズと微調整 512 MB
アシスタント トークンの制限 2,000,000 トークンの制限

リージョンのクォータ制限

モデルの既定のクォータは、モデルとリージョンによって異なります。 既定のクォータ制限は変更される可能性があります。

標準的なデプロイのクォータは、1 分あたりのトークン数 (TPM) の観点から説明されています。

リージョン GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast 40 K 80 K 80 K 30 K 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 K 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80 K - 240 K 240 K 240 K 350 K 350 K - - - - - - -
eastus2 - - 80 K - 300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K
francecentral 20 K 60 K 80 K - 240 K - 240 K - - - - - - - - -
japaneast - - - 30 K 300 K - 350 K - - - - - - - - -
northcentralus - - 80 K - 300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - 350 K - - - - - - - - -
southafricanorth - - - - - - 350 K - - - - - - - - -
southcentralus - - 80 K - 240 K - 240 K - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 300 K 240 K 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth 40 K 80 K - 30 K 300 K - 350 K - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - 240 K - 350 K - - - - - - - - -
westeurope - - - - 240 K - 240 K - - - - - - - - -
westus - - 80 K 30 K 300 K - 350 K - - - - - - - - -
westus3 - - 80 K - - - 350 K - - - - - - - - -

1 K = 1,000 TPM (1 分あたりのトークン数) TPM と 1 分あたりの要求数 (RPM) の関係は、現在、1,000 TPM あたり 6 RPM として定義されています。

レート制限内に収まるようにするための一般的なベスト プラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
  • さまざまな負荷増加パターンをテストします。
  • デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。

既定のクォータと制限の引き上げを要求する方法

クォータの増加要求は、Azure OpenAI Studio の [クォータ] ページから送信できます。 需要が殺到しているため、受け付け中のクォータ引き上げの要求は、受領した順に処理されます。 既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される可能性があります。

その他のレート制限については、サービス リクエストを送信してください。

次のステップ

Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。