プロビジョニングされたデプロイメントの展開を最適化するために、余剰トラフィックを管理する (プレビュー)

2025-07-02

スピルオーバーでは、超過トラフィックを対応する標準デプロイにルーティングすることで、プロビジョニングされたデプロイでのトラフィックの変動を管理します。スピルオーバーはオプションの機能であり、特定のデプロイですべての要求に対して設定することも、要求ごとに管理することもできます。スピルオーバーが有効になっている場合、Azure AI Foundry Models の Azure OpenAI は、プロビジョニングされたデプロイから処理用の標準デプロイに超過トラフィックを送信します。

[前提条件]

プライマリデプロイとして使用するグローバルプロビジョニング済みまたはデータゾーンプロビジョニング済みデプロイ。
あなたのスピルオーバーデプロイメントとして使用するためのグローバルまたはデータゾーンの標準的なデプロイメント。
スピルオーバーの対象にするには、プロビジョニング済みデプロイと標準デプロイが同じ Azure OpenAI リソースに存在する必要があります。
標準デプロイのデータ処理レベルは、プロビジョニングされたデプロイと一致している必要があります (たとえば、グローバルなプロビジョニング済みデプロイをグローバル標準スピルオーバーデプロイで使用する必要があります)。

プロビジョニングされたデプロイでスピルオーバーを有効にするタイミング

プロビジョニング済みデプロイの使用率を最大化するには、すべてのグローバルデプロイとデータゾーンプロビジョニング済みデプロイでスピルオーバーを有効にすることをお勧めします。スピルオーバーにより、トラフィックのバーストまたは変動をサービスによって自動的に管理できます。この機能により、プロビジョニングされたデプロイが完全に利用されたときに中断が発生するリスクが軽減されます。また、スピルオーバーは要求ごとに構成可能で、さまざまなシナリオやワークロードに柔軟性を提供します。

スピルオーバーが有効になるのはいつですか?

デプロイに対してスピルオーバーが有効になっているか、特定の推論要求に対して構成されている場合、特定の推論要求に対して 200 以外の応答コードを受信すると、スピルオーバーが開始されます。要求が 200 以外の応答コードになると、Azure OpenAI は、プロビジョニングされたデプロイから処理される標準デプロイに要求を自動的に送信します。要求のサブセットが標準デプロイにルーティングされた場合でも、サービスは、超過分の要求を標準デプロイに送信する前に、プロビジョニングされたデプロイへの要求の送信に優先順位を付けます。

スピルオーバーはコストにどのように影響しますか?

スピルオーバーでは、プロビジョニングされたデプロイと標準のデプロイを組み合わせてトラフィックの変動を管理するため、スピルオーバーの課金には次の 2 つのコンポーネントが含まれます。

プロビジョニングされたデプロイによって処理される要求には、時間単位のプロビジョニング済みデプロイコストのみが適用されます。これらの要求に対して追加コストは発生しません。
標準デプロイにルーティングされた要求の場合、要求は、指定されたモデルのバージョンとデプロイの種類に対して、関連付けられている入力トークン、キャッシュされたトークン、および出力トークンのレートで課金されます。

スピルオーバーを有効にする方法

スピルオーバー機能は、デプロイプロパティを使用してプロビジョニングされたデプロイのすべての要求に対して有効にすることも、要求ヘッダーを使用して要求ごとに管理することもできます。次のセクションでは、これらのシナリオごとにスピルオーバーを構成する方法について説明します。

プロビジョニングされたデプロイのすべての要求に対してスピルオーバーを有効にする

プロビジョニングされたデプロイのすべての要求に対してスピルオーバーを有効にするには、展開プロパティ spilloverDeploymentName をスピルオーバー要求の標準展開ターゲットに設定します。このプロパティは、新しいプロビジョニング済みデプロイの作成時に設定することも、既存のプロビジョニング済みデプロイに追加することもできます。 spilloverDeploymentName プロパティは、プロビジョニングされたデプロイと同じ Azure OpenAI リソース内の標準デプロイの名前に設定する必要があります。

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/spillover-ptu-deployment?api-version=2024-10-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"GlobalProvisionedManaged","capacity":100},"properties": {"spilloverDeploymentName": "spillover-standard-deployment", "model":{"format": "OpenAI","name": "gpt-4o-mini","version": "2024-07-18"}}}'

選択した推論要求のスピルオーバーを有効にする

要求ごとにスピルオーバーを選択的に有効にするには、 x-ms-spillover-deployment 推論要求ヘッダーをスピルオーバー要求の標準デプロイターゲットに設定します。特定の要求で x-ms-spillover-deployment ヘッダーが設定されていない場合、200 以外の応答が発生した場合にスピルオーバーが開始されます。このヘッダーを使用または省略すると、特定のワークロードまたはシナリオに対してスピルオーバーを開始するタイミングと開始しないタイミングを柔軟に制御できます。

curl $AZURE_OPENAI_ENDPOINT/openai/deployments/spillover-ptu-deployment/chat/completions?api-version=2025-02-01-preview \
  -H "Content-Type: application/json" \
  -H "x-ms-spillover-deployment: spillover-standard-deployment" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"messages":[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Does Azure OpenAI support customer managed keys?"},{"role": "assistant", "content": "Yes, customer managed keys are supported by Azure OpenAI."},{"role": "user", "content": "Do other Azure services support this too?"}]}'

注

spilloverDeploymentName プロパティを使用して展開に対してスピルオーバー機能が有効になっており、x-ms-spillover-deployment ヘッダーを使用する要求レベルでも有効になっている場合、システムは既定で展開プロパティの設定に設定されます。スピルオーバーが要求ごとにのみ有効になるようにする場合は、プロビジョニングされたデプロイで spilloverDeploymentName プロパティを設定せず、要求ごとに x-ms-spillover-deployment ヘッダーのみに依存してください。

スピルオーバーの使用状況を監視するにはどうすればよいですか?

スピルオーバー機能は、プロビジョニング済みデプロイと標準デプロイの組み合わせに依存してトラフィック超過を管理するため、各デプロイのデプロイレベルで監視を実行できます。プライマリプロビジョニングされたデプロイとスピルオーバー標準デプロイで処理された要求の数を表示するには、Azure Monitor メトリック内に分割機能を適用して、各デプロイによって処理された要求とそれぞれの状態コードを表示します。同様に、分割機能を使用して、特定の期間のプライマリプロビジョニング済みデプロイとスピルオーバー標準デプロイで処理されたトークンの数を表示できます。 Azure OpenAI 内の可観測性の詳細については、 Azure OpenAI の監視に関するドキュメントを参照してください。

次の Azure Monitor メトリックグラフは、スピルオーバーが開始されたときのプライマリプロビジョニング済みデプロイとスピルオーバー標準デプロイの間の要求の分割の例を示しています。グラフに示すように、プロビジョニングされたデプロイに対して 200 以外の応答コード ("gpt-4o-ptu") を持つすべての要求に対して、スピルオーバー標準デプロイ ("gpt-4o-paygo-spillover") に対する 200 応答コードを含む対応する要求があり、これらの超過要求が処理を成功させるためにスピルオーバー標準デプロイにルーティングされたことを示します。プロビジョニングされたデプロイから標準デプロイへのスピルオーバー要求を示す Azure Monitor グラフ。