次の方法で共有

AOAIモデルにおける故意の高負荷処理の実行を検知する方法について

Tomoya Mikoshiba 60 評価のポイント
2026-05-07T11:05:52.7966667+00:00

AOAIモデルに対して、超高負荷計算を要するプロンプト(例えば、10の50乗までに存在する素数をすべて教えてください、といった非現実的なものを求めるプロンプト)があった場合に、Azure Monitorで検知する方法をご教示ください。例えば、以下の公式ドキュメントに記載のある[Time to Response]の値が一定の応答時間を超えた場合をAzure Monitorアラートで検出する等、具体的な方法をご教示ください。

公式ドキュメントリンク.

Foundry Tools
Foundry Tools

以前は Azure AI サービスまたは Azure Cognitive Services と呼ばれていたもので、Microsoft Foundry プラットフォームに含まれる事前構築済みの AI 機能の統合コレクションです


2 件の回答

並べ替え方法: 最も役に立つ
  1. Manas Mohanty 17,185 評価のポイント Microsoft 外部スタッフ モデレーター
    2026-05-26T23:45:26.48+00:00

    おもや omoya Mikoshiba

    ご返信が遅れてしまい、申し訳ございません。

    計算負荷の高い入力については、応答時間やトークン数の増加を指標として測定することが可能です。

    トークン数は、クエリの複雑さや長さに応じて増加します。

    診断設定を有効にすることで、さまざまなメトリクスを収集でき、複雑または長文のクエリごとに異なるトークン量を可視化することができます。

    promptTokens

    completionTokens

    処理済みトークン数

    タイムスタンプ

    デプロイメント名

    また、KQL クエリを使用してカスタム監視ダッシュボードを作成することも可能です。

    https://learn.microsoft.com/ja-jp/azure/data-explorer/azure-data-explorer-dashboards

    https://learn.microsoft.com/ja-jp/azure/foundry/observability/concepts/trace-agent-concept


    レイテンシの間接的な制御について

    トークン消費量および応答時間は、以下のようなパラメータを調整することで制御することが可能です:

    max_completion_tokens

    temperature

    また、複雑なプロンプトをよりシンプルなものに分割することや、モデルルーターを使用することでも改善が可能です。


    以下は、同僚が説明した手順および設定(Azure OpenAI → メトリクス → レイテンシ → アラート)を直接裏付ける Microsoft 公式リファレンスです。

    1. Azure OpenAI のレイテンシメトリクス(Time to Response)

    ✅ メトリクス: Time to Response(応答時間)

    Microsoft は、Azure OpenAI ワークロードにおける正しいレイテンシ指標として Time to Response を明示しており、従来の Cognitive Services のレイテンシメトリクスは使用しないよう注意喚起しています。

    公式リファレンス Azure OpenAI の監視データ リファレンス

    「Azure OpenAI のレイテンシ監視には、Time to Response、Time to Last Byte、Time Between Tokens、または Normalized Time to First Byte を使用してください。」


    2. メトリック名前空間とディメンション

    ✅ メトリック名前空間 Azure OpenAI – Latency

    ✅ サポートされるディメンション

    deploymentName

    modelName

    これらのディメンションは、Azure OpenAI メトリクスでサポートされているものとして明示されています。

    公式リファレンス 監視データ リファレンス – メトリック ディメンション

    これは次の説明を裏付けます: 「これにより、高負荷なプロンプトを受信している特定のデプロイメントやモデルを特定・切り分けることができます。」


    3. 集計方法(Avg / P95 / P99)

    Microsoft は、テールレイテンシや異常なスパイクを特定するために、パーセンタイルを使用した分析を推奨しています。

    公式リファレンス Azure OpenAI のパフォーマンスとレイテンシ

    平均レイテンシ → ベースラインの挙動

    P95 / P99 → 外れ値や負荷集中のシナリオ

    ✅ 以下が有効であることを示しています:

    平均(Avg)

    パーセンタイル(P95 / P99)


    4. ベースライン レイテンシの確立

    Microsoft は、しきい値を定義する前に、実際のワークロードの挙動を観察することを明確に推奨しています。

    公式リファレンス レイテンシの評価 – Azure OpenAI

    レイテンシはモデル、トークンサイズ、同時実行数によって変動するため、ベースラインは Azure Monitor の過去データに基づいて算出する必要があり、仮定すべきではありません。

    ✅ 以下の指示を裏付けます: 「まず通常どおりにワークロードを実行し、ベースラインのレイテンシグラフを観察してください。」


    5. しきい値(例:> 2000 ms)

    Microsoft は固定のレイテンシ SLA を公開しておらず、しきい値はワークロードに依存すると明示しています。

    公式リファレンス Azure OpenAI のパフォーマンスとレイテンシ

    例: 「応答時間が 2000 ms を超える(またはワークロードに応じてそれ以上)」

    ✅ これは固定値ではなく例として提示されているため、適切な説明です。


    6. Azure Monitor メトリック アラートの作成

    ✅ メトリックベースのアラートは完全にサポートされています。

    Azure Monitor では、以下を含むアラートを作成できます:

    メトリック条件

    集計方法(Avg / P95 / P99)

    ディメンション フィルター

    公式リファレンス Azure Monitor メトリック アラートの作成

    ✅ 以下の内容を裏付けます:

    Time to Response をシグナルとして使用

    しきい値ベースのアラート

    デプロイメント/モデル単位のアラート設定


    7. Azure OpenAI のエンドツーエンド監視

    Microsoft は包括的な監視ガイドも提供しています。

    公式リファレンス Microsoft Foundry における Azure OpenAI の監視

    このドキュメントでは以下を統合的に説明しています:

    メトリクス

    アラート

    Log Analytics

    パフォーマンス診断


    お役に立てば幸いです。

    よろしくお願いいたします。以下が日本語(ja‑JP)への翻訳です:


    おもや 御柴様

    ご返信が遅れてしまい、申し訳ございません。

    計算負荷の高い入力については、応答時間やトークン数の増加を指標として測定することが可能です。

    トークン数は、クエリの複雑さや長さに応じて増加します。

    診断設定を有効にすることで、さまざまなメトリクスを収集でき、複雑または長文のクエリごとに異なるトークン量を可視化することができます。

    promptTokens

    completionTokens

    処理済みトークン数

    タイムスタンプ

    デプロイメント名

    また、KQL クエリを使用してカスタム監視ダッシュボードを作成することも可能です。

    https://learn.microsoft.com/ja-jp/azure/data-explorer/azure-data-explorer-dashboards

    https://learn.microsoft.com/ja-jp/azure/foundry/observability/concepts/trace-agent-concept


    レイテンシの間接的な制御について

    トークン消費量および応答時間は、以下のようなパラメータを調整することで制御することが可能です:

    max_completion_tokens

    temperature

    また、複雑なプロンプトをよりシンプルなものに分割することや、モデルルーターを使用することでも改善が可能です。


    以下は、同僚が説明した手順および設定(Azure OpenAI → メトリクス → レイテンシ → アラート)を直接裏付ける Microsoft 公式リファレンスです。

    1. Azure OpenAI のレイテンシメトリクス(Time to Response)

    ✅ メトリクス: Time to Response(応答時間)

    Microsoft は、Azure OpenAI ワークロードにおける正しいレイテンシ指標として Time to Response を明示しており、従来の Cognitive Services のレイテンシメトリクスは使用しないよう注意喚起しています。

    公式リファレンス
    Azure OpenAI の監視データ リファレンス

    「Azure OpenAI のレイテンシ監視には、Time to Response、Time to Last Byte、Time Between Tokens、または Normalized Time to First Byte を使用してください。」


    2. メトリック名前空間とディメンション

    ✅ メトリック名前空間
    Azure OpenAI – Latency

    ✅ サポートされるディメンション

    deploymentName

    modelName

    これらのディメンションは、Azure OpenAI メトリクスでサポートされているものとして明示されています。

    公式リファレンス
    監視データ リファレンス – メトリック ディメンション

    これは次の説明を裏付けます:
    「これにより、高負荷なプロンプトを受信している特定のデプロイメントやモデルを特定・切り分けることができます。」


    3. 集計方法(Avg / P95 / P99)

    Microsoft は、テールレイテンシや異常なスパイクを特定するために、パーセンタイルを使用した分析を推奨しています。

    公式リファレンス
    Azure OpenAI のパフォーマンスとレイテンシ

    平均レイテンシ → ベースラインの挙動

    P95 / P99 → 外れ値や負荷集中のシナリオ

    ✅ 以下が有効であることを示しています:

    平均(Avg)

    パーセンタイル(P95 / P99)


    4. ベースライン レイテンシの確立

    Microsoft は、しきい値を定義する前に、実際のワークロードの挙動を観察することを明確に推奨しています。

    公式リファレンス
    レイテンシの評価 – Azure OpenAI

    レイテンシはモデル、トークンサイズ、同時実行数によって変動するため、ベースラインは Azure Monitor の過去データに基づいて算出する必要があり、仮定すべきではありません。

    ✅ 以下の指示を裏付けます:
    「まず通常どおりにワークロードを実行し、ベースラインのレイテンシグラフを観察してください。」


    5. しきい値(例:> 2000 ms)

    Microsoft は固定のレイテンシ SLA を公開しておらず、しきい値はワークロードに依存すると明示しています。

    公式リファレンス
    Azure OpenAI のパフォーマンスとレイテンシ

    例:
    「応答時間が 2000 ms を超える(またはワークロードに応じてそれ以上)」

    ✅ これは固定値ではなく例として提示されているため、適切な説明です。


    6. Azure Monitor メトリック アラートの作成

    ✅ メトリックベースのアラートは完全にサポートされています。

    Azure Monitor では、以下を含むアラートを作成できます:

    メトリック条件

    集計方法(Avg / P95 / P99)

    ディメンション フィルター

    公式リファレンス
    Azure Monitor メトリック アラートの作成

    ✅ 以下の内容を裏付けます:

    Time to Response をシグナルとして使用

    しきい値ベースのアラート

    デプロイメント/モデル単位のアラート設定


    7. Azure OpenAI のエンドツーエンド監視

    Microsoft は包括的な監視ガイドも提供しています。

    公式リファレンス
    Microsoft Foundry における Azure OpenAI の監視

    このドキュメントでは以下を統合的に説明しています:

    メトリクス

    アラート

    Log Analytics

    パフォーマンス診断


    お役に立てば幸いです。

    よろしくお願いいたします。


    この回答は役に立ちましたか?

    1 人がこの回答が役に立ったと思いました。

  2. SRILAKSHMI C 19,195 評価のポイント Microsoft 外部スタッフ モデレーター
    2026-05-11T17:58:59.76+00:00

    H様 Tomoya Mikoshiba,

    ご質問ありがとうございます。

    はい、Azure Monitorのメトリック、診断ログ、およびアラートルールを使用することで、通常よりも負荷が高い、あるいは実行時間が長いAzure OpenAI(AOAI)リクエストを監視・検知することが可能です。

    ユーザーが意図的に計算負荷の高いプロンプト(例:極めて大規模な出力を生成するよう設計されたプロンプトや、過剰な処理時間を要するプロンプト)を送信するようなシナリオにおいては、以下のようなレイテンシ(応答遅延)関連のメトリックを監視することが推奨されるアプローチとなります。

    • 応答までの時間(Time to Response) / エンドツーエンドのレイテンシ • 処理時間 • リクエストの実行時間 • リクエストの発行時刻 • プロンプト/完了トークンの急増 • レート制限(Rate limit)やスロットリングの発生イベント

    Azure Monitorのアラート機能を使用すれば、応答レイテンシが定義済みのしきい値を超えた際に、自動的に検知を行うことができます。

    推奨される設定手順:

    Azure PortalでAzure OpenAIリソースを開く: • Azure OpenAIリソースの画面に移動します • [監視] → [メトリック] を開きます

    レイテンシ関連のメトリックを選択する: • メトリック名前空間:Azure OpenAI – Latency • メトリック名:応答までの時間(Time to Response)

    推奨される集計方法: • 平均(Avg) • 異常なレイテンシの急増を検知するためのパーセンタイル(P95/P99)

    オプションのディメンション: • deploymentName • modelName

    これにより、負荷の高いプロンプトを受け取っている可能性のある特定のデプロイやモデルを特定・分離することが可能になります。

    レイテンシのしきい値を決定する: まずは通常通りのワークロードを実行し、ベースラインとなるレイテンシのグラフを観察してください。

    その後、以下のようなしきい値を設定します: • 応答までの時間 > 2000 ms • または、想定されるワークロードに応じて、これより高い値を設定

    Azure Monitorのアラートルールを作成する: [メトリック] ページから • [新しいアラートルール] をクリックします

    設定例: • 条件:応答までの時間 > 2000 ms

    • 集計:平均(Average)または最大(Maximum)

    • 評価期間:過去5分間

    • 評価頻度:1分ごと

    さらに、以下の通知・アクション設定を行うことができます: • メール通知 • Webhook • Logic Apps • Automation Runbook • Teams/Slackへの通知

    診断設定とLog Analyticsを有効にする: より詳細な分析を行うために • Azure OpenAIリソースの [診断設定] を有効にします • メトリックやログをLog Analyticsワークスペースへ送信するよう設定します

    これにより、以下のことが可能になります: • 過去の履歴に基づいた分析の実行 • KQL(Kusto照会言語)を用いた検知ルールの構築 • 繰り返し発生する負荷の高いプロンプトの特定 • トークンの急増とレイテンシの相関関係の分析 • ログデータに基づいたアラートの作成検出可能なシナリオの例: • 極めて長い応答時間 • 過剰なトークン使用量 • 頻繁かつ高コストなリクエスト • レイテンシ(遅延)の急激な上昇 • 単一のクライアントまたはIPアドレスからの、計算負荷の高いプロンプトの繰り返し送信

    Azure CLI の例:Azure CLI を使用して、プログラム経由でアラートを作成することも可能です。

    az monitor metrics alert create \

    --name HighLatencyAlert \

    --resource-group MyRG \

    --resource /subscriptions/<subscription-id>/resourceGroups/MyRG/providers/Microsoft.CognitiveServices/accounts/MyAOAI \

    --condition "avg TimeToResponse > 2000" \

    --description "Detect high-latency prompts" \

    --window-size 5m \

    --evaluation-frequency 1m \

    --action /subscriptions/.../resourceGroups/.../providers/microsoft.insights/actionGroups/MyActionGroup

    その他の推奨事項: • TPM(1分あたりのトークン数)および RPM(1分あたりのリクエスト数)のクォータを設定する • リクエストにおける max_tokens の上限を制限する • アプリケーション層において、プロンプトの検証やガードレール(安全策)を実装する • API Management のレート制限ポリシーを適用する • 平均値だけでなく、P95(95パーセンタイル)や P99(99パーセンタイル)のレイテンシも監視対象に含める

    なお、Azure OpenAI では現在、特定のプロンプトを「意図的な高負荷計算」を伴うリクエストとして明示的に分類する機能は提供されていません。そのため、検出は一般的に以下の要素を間接的に利用して行われます: • レイテンシ(遅延)に関するメトリック • トークンの消費量 • スループットの異常 • および、高コストなリクエストが繰り返されるパターン

    Please refer this

    モニター Azure OpenAI – レイテンシ メトリック https://learn.microsoft.com/ja-jp/azure/foundry/openai/monitor-openai-reference#category-azure-openai---latency

    Azure Monitor アラートの概要 https://learn.microsoft.com/ja-jp/azure/azure-monitor/alerts/alerts-overview

    Azure CLI でのアラートルール作成 https://learn.microsoft.com/ja-jp/cli/azure/monitor/metrics/alert#az_monitor_metrics_alert_create

    本情報がお役に立てば幸いです。ご不明な点がございましたら、お気軽にお問い合わせください。

    よろしくお願いいたします。

    この回答は役に立ちましたか?


お客様の回答

質問作成者は回答に "承認済み"、モデレーターは "おすすめ" とマークできます。これにより、ユーザーは作成者の問題が回答によって解決したことを把握できます。