次の方法で共有

AzureOpenAIでレスポンスの速度に時期によって差があるのですが、なぜでしょうか?

Sho Sakai 0 評価のポイント
2026-05-08T07:07:23.72+00:00

現在、Azure OpenAIのgpt-5o-miniを使用していますが、レスポンスが極端に遅くなる時があります。

アウトプットトークン量が30tokens/secの時もあれば、90tokens/secの時もあります。インプットトークン量に依存している傾向はありませんでした。

日や時間帯によってブレがあるように見えます。

このように3倍程度のレスポンスの差が出ることはよくあることでしょうか??

Foundry Tools
Foundry Tools

以前は Azure AI サービスまたは Azure Cognitive Services と呼ばれていたもので、Microsoft Foundry プラットフォームに含まれる事前構築済みの AI 機能の統合コレクションです

0 件のコメント コメントはありません

2 件の回答

並べ替え方法: 最も役に立つ
  1. Kobayashi 160 評価のポイント Microsoft 外部スタッフ モデレーター
    2026-05-12T01:53:06.95+00:00

    お問い合わせいただき、どうもありがとうございます。

    はい。おっしゃるような出力速度の差は、Azure OpenAIでは実際に発生いたします。
    Azure OpenAI はリージョン単位でGPUリソースを共有しております。
    同じリージョンの利用者が増えると、混雑によりスループットが低下したり、待機時間が増える可能性がございます。
    そのため、日や時間帯によって3倍程度のレスポンスの差がでることは、珍しいことではございません。

    また、クライアントと Azure 間のネットワーク経路が混雑すると、レスポンス速度に影響が出ることがございます。
    生成トークンは逐次的に生成されますので、プロンプト内容や生成量によってスループットが変動する場合もございます。
    安定したスループットと待機時間が必須である場合、PTU(プロビジョニングされたスループット)の利用をご検討ください。

    参考
    Microsoft Foundry Models のクォータと制限内での Azure OpenAI
    https://learn.microsoft.com/ja-jp/azure/foundry/openai/quotas-limits

    パフォーマンスと待機時間
    https://learn.microsoft.com/ja-jp/azure/foundry/openai/how-to/latency

    Foundryモデルにおけるプロビジョニングされたスループットとは何ですか?
    https://learn.microsoft.com/ja-jp/azure/foundry/openai/concepts/provisioned-throughput

    この回答は役に立ちましたか?

    0 件のコメント コメントはありません

  2. Hebikuzure aka Murachi Akira 325.9K 評価のポイント MVP ボランティア モデレーター
    2026-05-08T09:53:27.56+00:00

    パブリックなクラウド サービスなので、バックエンドのサーバーの利用状況によって応答時間が変わるのはむしろ普通でしょう。

    この回答は役に立ちましたか?

    0 件のコメント コメントはありません

お客様の回答

質問作成者は回答に "承認済み"、モデレーターは "おすすめ" とマークできます。これにより、ユーザーは作成者の問題が回答によって解決したことを把握できます。