Azure OpenAI Service のクォータと制限
この記事には、Azure AI サービス内の Azure OpenAI のクォータと制限に関するクイック リファレンスおよび詳細な説明が記載されています。
クォータと制限のリファレンス
以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイック ガイドを提供します。
制限名 | 制限値 |
---|---|
各 Azure サブスクリプションのリージョンあたりの OpenAI リソース数 | 30 |
既定の DALL-E 2 クォータ制限 | 2 同時要求 |
既定の DALL-E 3 クォータ制限 | 2 容量ユニット (1 分あたり 6 要求) |
要求あたりの最大プロンプト トークン数 | モデルごとに異なります。 詳細については、「Azure OpenAI Service モデル」を参照してください。 |
微調整されたモデル デプロイの最大数 | 5 |
リソースあたりのトレーニング ジョブの合計数 | 100 |
リソースあたりの同時実行トレーニング ジョブの最大数 | 1 |
キューに入ったトレーニング ジョブの最大数 | 20 |
リソースあたりの最大ファイル数 (微調整) | 50 |
リソースあたりのすべてのファイルの合計サイズ (微調整) | 1 GB |
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します) | 720 時間 |
トレーニング ジョブの最大サイズ (トレーニング ファイル内のトークン) x (エポックの数) | 20 億 |
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI) | 16 MB |
/embeddings を含む配列内の最大数または入力数 |
2048 |
/chat/completions メッセージの最大数 |
2048 |
/chat/completions 関数の最大数 |
128 |
/chat completions ツールの最大数 |
128 |
デプロイあたりのプロビジョニング スループット ユニットの最大数 | 100,000 |
アシスタント/スレッドあたりの最大ファイル数 | 20 |
アシスタントの最大ファイル サイズと微調整 | 512 MB |
アシスタント トークンの制限 | 2,000,000 トークンの制限 |
リージョンのクォータ制限
モデルの既定のクォータは、モデルとリージョンによって異なります。 既定のクォータ制限は変更される可能性があります。
標準的なデプロイのクォータは、1 分あたりのトークン数 (TPM) の観点から説明されています。
リージョン | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20 K | 60 K | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 300 K | 240 K | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 1,000 TPM (1 分あたりのトークン数) TPM と 1 分あたりの要求数 (RPM) の関係は、現在、1,000 TPM あたり 6 RPM として定義されています。
レート制限内に収まるようにするための一般的なベスト プラクティス
レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。
- アプリケーションで再試行ロジックを実装します。
- ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
- さまざまな負荷増加パターンをテストします。
- デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。
既定のクォータと制限の引き上げを要求する方法
クォータの増加要求は、Azure OpenAI Studio の [クォータ] ページから送信できます。 需要が殺到しているため、受け付け中のクォータ引き上げの要求は、受領した順に処理されます。 既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される可能性があります。
その他のレート制限については、サービス リクエストを送信してください。
次のステップ
Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。