AzureOpenAIでレスポンスの速度に時期によって差があるのですが、なぜでしょうか？

Question

AzureOpenAIでレスポンスの速度に時期によって差があるのですが、なぜでしょうか？

Sho Sakai 0

現在、Azure OpenAIのgpt-5o-miniを使用していますが、レスポンスが極端に遅くなる時があります。

アウトプットトークン量が30tokens/secの時もあれば、90tokens/secの時もあります。インプットトークン量に依存している傾向はありませんでした。

日や時間帯によってブレがあるように見えます。

このように3倍程度のレスポンスの差が出ることはよくあることでしょうか？?

0 件のコメント

2 件の回答

お客様の回答

Answer 1

お問い合わせいただき、どうもありがとうございます。

はい。おっしゃるような出力速度の差は、Azure OpenAIでは実際に発生いたします。
Azure OpenAI はリージョン単位でGPUリソースを共有しております。
同じリージョンの利用者が増えると、混雑によりスループットが低下したり、待機時間が増える可能性がございます。
そのため、日や時間帯によって3倍程度のレスポンスの差がでることは、珍しいことではございません。

また、クライアントと Azure 間のネットワーク経路が混雑すると、レスポンス速度に影響が出ることがございます。
生成トークンは逐次的に生成されますので、プロンプト内容や生成量によってスループットが変動する場合もございます。
安定したスループットと待機時間が必須である場合、PTU（プロビジョニングされたスループット）の利用をご検討ください。

参考
Microsoft Foundry Models のクォータと制限内での Azure OpenAI
https://learn.microsoft.com/ja-jp/azure/foundry/openai/quotas-limits

パフォーマンスと待機時間
https://learn.microsoft.com/ja-jp/azure/foundry/openai/how-to/latency

Foundryモデルにおけるプロビジョニングされたスループットとは何ですか？
https://learn.microsoft.com/ja-jp/azure/foundry/openai/concepts/provisioned-throughput

Answer 2

Hebikuzure aka Murachi Akira 325.9K MVP ボランティアモデレーター

パブリックなクラウドサービスなので、バックエンドのサーバーの利用状況によって応答時間が変わるのはむしろ普通でしょう。

0 件のコメント

次の方法で共有

AzureOpenAIでレスポンスの速度に時期によって差があるのですが、なぜでしょうか？

2 件の回答

お客様の回答