以前は Azure AI サービスまたは Azure Cognitive Services と呼ばれていたもので、Microsoft Foundry プラットフォームに含まれる事前構築済みの AI 機能の統合コレクションです
お問い合わせいただき、どうもありがとうございます。
はい。おっしゃるような出力速度の差は、Azure OpenAIでは実際に発生いたします。
Azure OpenAI はリージョン単位でGPUリソースを共有しております。
同じリージョンの利用者が増えると、混雑によりスループットが低下したり、待機時間が増える可能性がございます。
そのため、日や時間帯によって3倍程度のレスポンスの差がでることは、珍しいことではございません。
また、クライアントと Azure 間のネットワーク経路が混雑すると、レスポンス速度に影響が出ることがございます。
生成トークンは逐次的に生成されますので、プロンプト内容や生成量によってスループットが変動する場合もございます。
安定したスループットと待機時間が必須である場合、PTU(プロビジョニングされたスループット)の利用をご検討ください。
参考
Microsoft Foundry Models のクォータと制限内での Azure OpenAI
https://learn.microsoft.com/ja-jp/azure/foundry/openai/quotas-limits
パフォーマンスと待機時間
https://learn.microsoft.com/ja-jp/azure/foundry/openai/how-to/latency
Foundryモデルにおけるプロビジョニングされたスループットとは何ですか?
https://learn.microsoft.com/ja-jp/azure/foundry/openai/concepts/provisioned-throughput