この記事では、Azure AI Foundry で Azure AI サービス リソースのクォータの管理と引き上げを行う方法に関するガイダンスを提供します。
概要
個々の Azure AI サービス リソースには、事前に構成された静的呼び出しレート (1 秒あたりのトランザクション数) があり、これによって、特定の期間にバックエンド サービスに対して行うことができる同時呼び出しの数が制限されます。 自動スケーリング機能は、(ほぼ) リアルタイムのリソース使用状況メトリックとバックエンド サービス容量メトリックに基づいて、お客様のリソースのレート制限を自動的に増減します。
自動スケーリング機能の概要
すべての新しいリソースで、この機能は既定で無効です。 これを有効にするには、次の情報を使用します。
Azure portal でリソースのページに移動し、左側のペインで [概要] タブを選択します。 [要点] セクションで、[自動スケール] の行を探してリンクを選択し、[自動スケール設定] ペインを表示して機能を有効にします。
よく寄せられる質問
自動スケーリング機能を有効にすると、リソースの帯域幅は調整されなくなるのですか?
いいえ。レート制限超過の 429
エラーは引き続き発生する可能性があります。 アプリケーションでスパイクが発生し、リソースから 429
応答が報告された場合、自動スケーリングは、現在の容量がレート制限の増加に対応できるかどうかを確認するために、使用可能な容量予測セクションをチェックし、5 分以内に応答します。
使用可能な容量が増加に対して十分な場合は、自動スケーリングによってリソースのレート制限の上限が徐々に引き上げられます。
429
帯域幅調整がさらに発生する高いレートでリソースの呼び出しを続けた場合、TPS レートは時間の経過と共に増加し続けます。 このアクションが 1 時間以上続くと、その時点でそのリソースに対して利用可能な最大レート (最大 1000 TPS) に達します。
使用可能な容量が増加に対して十分でない場合、自動スケーリング機能は 5 分間待機し、もう一度チェックします。
既定のレート制限の引き上げが必要な場合、どうすればよいですか?
既定では、Azure AI サービス リソースの既定のレート制限は 10 TPS です。 既定の TPS の引き上げが必要な場合は、Azure portal のリソースのページにある [新しいサポート要求] リンクからチケットを送信してください。 要求に業務上の正当な理由を含めるのを忘れないでください。
自動スケーリングによって Azure の支出は増加しますか?
Azure AI サービスの価格は変更されておらず、価格ページからご確認いただけます。 Azure AI サービス API の呼び出しが成功した場合にのみ請求が発生します。 ただし、呼び出しレート制限の引き上げに伴って、トランザクションの完了数が増加し、請求額が増加する場合があります。
エラーの可能性とその結果にご注意ください。 クライアント アプリケーションのバグによって 1 秒あたり数百回のサービス呼び出しが発生した場合、請求額が大幅に増加する可能性がありますが、レート制限が固定されていれば費用はかなり抑制されます。 この種のエラーはお客様の責任となります。 自動スケーリング機能をご使用になる前に、固定レート制限のリソースに対して開発テストとクライアント更新テストを実行することを強くお勧めします。
不測の支出が発生しないようにレートを制限したい場合、この機能を無効にできますか?
はい。Azure portal または CLI を使用して自動スケーリング機能を無効にし、既定のレート制限設定に戻すことができます。 より高い既定の TPS がリソースで以前に承認されていた場合、そのレートに戻ります。 変更が有効になるまでに最大 5 分ほどかかることがあります。
どのサービスで自動スケーリング機能がサポートされますか?
自動スケーリング機能は、いくつかの Azure AI サービスで使用できます。 詳しくは、Azure AI サービスのレート制限に関する記事を参照してください。
無料のサブスクリプションを使用してこの機能をテストできますか?
いいえ。自動スケーリング機能は Free レベルのサブスクリプションでは使用できません。
次のステップ
- Azure AI のコストを計画および管理する。
- Microsoft Cost Management を使用してクラウドへの投資を最適化する。
- 予期しないコストを回避する方法について説明します。
- Cost Management のガイド付き学習コースを受講します。