Azure OpenAI 動的クォータ (プレビュー)
動的クォータは、追加の容量が使用可能な場合に、標準 (従量課金制) デプロイでより多くのクォータを日和見的に利用できるようにする Azure OpenAI 機能です。 動的クォータがオフに設定されている場合、デプロイでは、1 分あたりのトークン数 (TPM) 設定によって確立された最大スループットを処理できます。 事前設定された TPM を超えると、要求では HTTP 429 応答を返します。 動的クォータが有効になっている場合、デプロイからは、429 応答を返す前により高いスループットにアクセスでき、より多くの呼び出しをより早く実行できます。 追加の要求は、引き続き通常の価格レートで課金されます。
動的クォータでは、使用可能なクォータを一時的にのみ "増やす" ことができます。構成した値を下回って減ることはありません。
動的クォータを使用するタイミング
動的クォータは、ほとんどのシナリオで役立ちます。特に、アプリケーションで日和見的に追加の容量を使用できる場合、またはアプリケーション自体で Azure OpenAI API が呼び出される頻度を増やしている場合です。
通常、動的クォータを回避したい状況は、クォータが揮発性であるか増加する場合にアプリケーションによって悪影響があるときです。
動的クォータの場合は、次のようなシナリオを検討してください。
- 一括処理、
- 取得拡張生成 (RAG) の要約または埋め込みの作成、
- メトリックと評価を生成するためのログのオフライン分析、
- 優先度の低い調査、
- 割り当てられたクォータが少ないアプリ。
動的クォータが有効になるタイミング
Azure OpenAI バックエンドでは、異なるデプロイで動的クォータを追加または削除するかどうか、そのタイミング、その量を決定します。 事前に予測または発表されず、予測不可能です。 動的クォータを利用するには、HTTP 429 応答の頻度が低くなるため、アプリケーション コードでより多くの要求を発行できる必要があります。 Azure OpenAI は、HTTP 429 で応答し、それ以降の API 呼び出しを行えないようにして、クォータ制限に達したことをアプリケーションに通知します。
動的クォータではコストがどのように変わるか
基本クォータを超えて行われる呼び出しには、通常の呼び出しと同じコストがかかります。
デプロイで動的クォータを有効にしても追加のコストは発生しませんが、スループットが向上すると、デプロイで受信するトラフィックの量に応じて最終的にコストが増加する可能性があります。
Note
動的クォータでは、"上限" クォータまたはスループットの呼び出しは適用されません。 Azure OpenAI では、ベースライン クォータを超える数の要求を処理します。 クォータの制約が少ない場合でも支出率を制御する必要がある場合、アプリケーション コードではそれに応じて要求を保留する必要があります。
動的クォータの使用方法
動的クォータを使用するには、以下のことが必要です。
- Azure OpenAI デプロイで動的クォータのプロパティを有効にします。
- アプリケーションで動的クォータを確実に利用できるようにします。
動的なデータを有効にする
デプロイの動的クォータをアクティブにするには、リソース構成の詳細プロパティに移動し、オンに切り替えます。
または、Azure CLI の az rest
を使用してプログラムで有効にすることもできます。
{subscriptionId}
、{resourceGroupName}
、{accountName}
、{deploymentName}
を、リソースに関連する値に置き換えます。 この場合、accountName
は Azure OpenAI リソース名と同じです。
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
動的クォータがアプリに追加されているスループットを知る方法
動作を監視するには、Azure Monitor でアプリケーションのスループットを追跡します。 動的クォータのプレビュー中は、クォータが動的に増減されたかどうかを示す特定のメトリックまたはログはありません。 動的クォータは、使用率の高いリージョンで実行されている場合や、それらのリージョンの操作のピーク時にデプロイに使用する可能性は低くなります。
次のステップ
- クォータのしくみの詳細を確認します。
- Azure OpenAI の監視の詳細を確認します。