AI サービスの上限を自動スケーリングする

この記事では、お客様が Azure AI サービス リソースでより高いレート制限を利用する方法に関するガイダンスを提供します。

概要

個々の Azure AI サービス リソースには、事前に構成された静的な呼び出しレート (1 秒あたりのトランザクション数) があり、これによって、一定の概算時間内にお客様がバックエンド サービスに対して行うことができる同時呼び出しの数が制限されます。 自動スケーリング機能は、ほぼリアルタイムのリソース使用量メトリックとバックエンド サービス容量メトリックに基づいて、お客様のリソースのレート制限を自動的に増減します。

自動スケーリング機能の概要

すべての新しいリソースで、この機能は既定で無効です。 以下の手順に従って、有効化してください。

Azure portal でリソースのページに移動し、左側のペインで [概要] タブを選択します。 [要点] セクションで、[自動スケール] の行を探してリンクを選択し、[自動スケール設定] ペインを表示して機能を有効にします。

Screenshot of the Azure portal with the autoscale pane on right.

よく寄せられる質問

自動スケーリング機能を有効にすると、リソースは二度と帯域幅調整されなくなるのですか?

いいえ。レート制限超過の 429 エラーは引き続き発生する可能性があります。 アプリケーションでスパイクが発生し、リソースから 429 応答が報告された場合、自動スケーリングは、現在の容量がレート制限の増加に対応できるかどうかを確認するために、使用可能な容量予測セクションをチェックし、5 分以内に応答します。

使用可能な容量が増加に対して十分な場合は、自動スケーリングによってリソースのレート制限の上限が徐々に引き上げられます。 429 帯域幅調整がさらに発生する高いレートでリソースの呼び出しを続けた場合、TPS レートは時間の経過と共に増加し続けます。 このアクションが 1 時間以上続くと、その時点でそのリソースに対して利用可能な最大レート (最大 1000 TPS) に達します。

使用可能な容量が増加に対して十分でない場合、自動スケーリング機能は 5 分間待機し、もう一度チェックします。

既定のレート制限の引き上げが必要な場合、どうすればよいですか?

既定では、Azure AI サービス リソースの既定のレート制限は 10 TPS です。 既定の TPS の引き上げが必要な場合は、Azure portal のリソースのページにある [新しいサポート要求] リンクからチケットを送信してください。 要求に業務上の正当な理由を含めるのを忘れないでください。

この機能によって Azure の支出が増加しますか?

Azure AI サービスの価格は変更されておらず、こちらからご確認いただけます。 Azure AI サービス API の呼び出しが成功した場合にのみ請求が発生します。 ただし、呼び出しレート制限の引き上げに伴って、トランザクションの完了数が増加し、請求額が増加する場合があります。

エラーの可能性とその結果にご注意ください。 クライアント アプリケーションのバグによって 1 秒あたり数百回のサービス呼び出しが発生した場合、請求額が大幅に増加する可能性がありますが、レート制限が固定されていれば費用はかなり抑制されます。 この種のエラーはお客様の責任となります。 自動スケーリング機能をご使用になる前に、固定レート制限のリソースに対して開発テストとクライアント更新テストを実行することを強くお勧めします。

不測の支出が発生しないようにレートを制限したい場合、この機能を無効にできますか?

はい。Azure portal または CLI を使用して自動スケーリング機能を無効にし、既定のレート制限設定に戻すことができます。 より高い既定の TPS がリソースで以前に承認されていた場合、そのレートに戻ります。 変更が有効になるまでに最大 5 分ほどかかることがあります。

どのサービスで自動スケーリング機能がサポートされますか?

自動スケーリング機能は、次のサービスで使用できます。

無料のサブスクリプションを使用してこの機能をテストできますか?

いいえ。自動スケーリング機能は Free レベルのサブスクリプションでは使用できません。

次のステップ