AOAIモデルにおける故意の高負荷処理の実行を検知する方法について

Question

AOAIモデルにおける故意の高負荷処理の実行を検知する方法について

Tomoya Mikoshiba 60

AOAIモデルに対して、超高負荷計算を要するプロンプト（例えば、10の50乗までに存在する素数をすべて教えてください、といった非現実的なものを求めるプロンプト）があった場合に、Azure Monitorで検知する方法をご教示ください。例えば、以下の公式ドキュメントに記載のある[Time to Response]の値が一定の応答時間を超えた場合をAzure Monitorアラートで検出する等、具体的な方法をご教示ください。

公式ドキュメントリンク.

SRILAKSHMI C 19,195 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-13T06:29:38.01+00:00

こんにちは。Tomoya Mikoshiba,

上記のご回答をご確認いただけましたでしょうか。何かご不明な点がございましたら、お知らせください。

よろしくお願いいたします。
Karnam Venkata Rajeswari 3,835 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-14T00:23:43.2833333+00:00

こんにちは Tomoya Mikoshiba,

上記の回答がお役に立てたかどうか、お知らせください。

ありがとうございます
Karnam Venkata Rajeswari 3,835 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-15T21:55:05.69+00:00

こんにちは、Tomoya Mikoshiba,

上記の回答がお役に立てば幸いです。

以前のコメントを回答に変換しましたので、承認済みとしてアップボートしていただけると幸いです。そうすることで、同じ質問を持つ他のユーザーが解決策を見つけやすくなります。

ありがとうございます
Tomoya Mikoshiba 60 評価のポイント

2026-05-25T08:50:12.5033333+00:00

こんにちは @SRILAKSHMI C @Karnam Venkata Rajeswari

本件、詳細な調査およびご教示ありがとうございます。

下記2点について、遅くとも5/27 AM中に調査状況と回答目途をご連携頂けますと幸いです。

① Time To Responceによってユーザ故意の高負荷処理の実行を検知する妥当性

Time to ResponseメトリックはあくまでAOAIモデルが応答するまでのレイテンシであって、同時接続ユーザ数等の負荷状況によって変動するものという認識はあっておりますでしょうか。

② 高負荷計算を要するプロンプトを実行に対するAOAIモデルの制御の仕組み等

高負荷計算を要するプロンプトを実行した場合、AOAIモデルにデフォルトで備わっているコンテンツフィルターやプロンプトシールド等の機能によってブロックや、推論処理そのものが制御されるような仕組みはございますでしょうか。

Microsoft Foundry モデル (クラシック) のコンテンツフィルター処理

Manas Mohanty 17,185 Microsoft 外部スタッフモデレーター

ねえ、 三島智也

以下は、Azure OpenAI(AOAI)/Microsoft Foundry(Classic)の動作と公式のMicrosoftドキュメントに沿った、あなた方の質問に対する直接的かつ技術的に根ざした回答です。

(1) タイム・トゥ・レスポンスによる意図的な高負荷ユーザー処理の検出の妥当性

短い答え

✅ はい、あなたの理解は正しいですが、重要な注意点があります。

実際に「対応までの時間」が測定しているもの

Azure OpenAI / Microsoft Foundryでは:

**応答までの時間(レイテンシ)とは ** 、リクエスト受理からモデルが応答を返すまでの1コールあたりの応答時間を指します。
ユーザーの意図や計算複雑さを直接測定するものではありません。
その中には以下が含まれます:
- 入場申請
  - 内容安全確認
    - モデル推論
      - トークン生成

Microsoftは明確に以下を区別しています:

レイテンシ = 通話あたりの応答時間
スループット = システム容量(トークン数/分)

[learn.microsoft.com]、[video2.ski...cademy.com]

なぜ対応までの時間は変動するのか

同じプロンプトでも応答までの時間が長くなることがあります。理由は以下の通りです:

同時ユーザー負荷
- 高い同時進行はキューイングと推論競合を増加させます。
1. 入力+出力トークン量
  - トークンが増えれば推論時間→長くなります。
  1. モデルと展開タイプ
    - 標準型とプロビジョーニング型スループット型のデプロイは動作が異なります。
    1. コンテンツセーフティ層
      - フィルターとプロンプトシールドは同期的に動作し、遅延を増やします。

[learn.microsoft.com]、[pondhouse-data.com]

Time to Responseは意図的な高負荷プロンプトを検出できますか?

❌ いいえ、単体では確実にできません。

遅延だけでは以下の区別はできません:

悪意のある、または意図的な高負荷プロンプト
正当な長文または複雑なビジネスプロンプト
プラットフォーム側の負荷スパイクや騒音の隣接者

✅ ** 信頼できる推測ができること**

持続的な増加:
- プロンプトトークン
  - 完了トークン
    - トークン数/分(TPM)
    - 時間経過による**レイテンシースパイクとの相関 **

Microsoftは以下の組み合わせを推奨しています:

処理プロンプトトークン
生成完了トークン
通話あたりの遅延指標

[learn.microsoft.com]

✅ ** (1)の結論**

応答までの時間は単なるレイテンシ信号であり、並行性と負荷の影響を受けます。** これは意図的な高負荷ユーザー実行を検出するための**有効な単独のインジケーターではありません。

(2) AOAIにおける重計算プロンプトの実行制御メカニズム

キーの説明

❌ AOAIは「計算の重さ」に基づいて推論をブロックしたり制限したりする仕組みを提供していません。

以下のようなモデル内部統制は存在しません。

「このプロンプトは計算コストが高すぎる — 推論をやめろ。」

* 存在するもの(そして存在しないもの)*

✅ コンテンツフィルター(Microsoft Foundry – Classic)

目的: 安全性、性能ではありません
推論の前後で実行
有害なコンテンツカテゴリーを検出する:
- 憎しみ
  - 性的な
    - 暴力
      - 自傷行為
      - 重度に基づくブロッキング(低/中/高)

彼らは プロンプトの複雑さ、ループ、推論の深さを分析しません。

[learn.microsoft.com]、[learn.microsoft.com]

✅ プロンプト・シールド

検出:
- 脱獄未遂
  - プロンプトインジェクション
    - 間接攻撃(RAGシナリオ)
    - 計算ではなく敵対的なパターンによって引き起こされる

「重い推論」のプロンプトはブロックできません。

[github.com]、[deepwiki.com]

✅ 保護された素材/接地性

著作権と事実の整合性チェック
推論コストとの関係なし

[pondhouse-data.com]

AOAIがしないこと

能力	サポート
重い推論ループを検出する	❌
--------	--------
重い推論ループを検出する	❌
計算コストによるブロックプロンプト	❌
複雑さに基づくスロットル推論	❌
発生中止推論	❌

Microsoftのドキュメントは明確に述べています: 安全システムはコストや計算ベースではなく、コンテンツベースです。

[learn.microsoft.com]

✅ 顧客が重計算を管理する方法(推奨)

Microsoftはクライアントサイドおよびアーキテクチャ制御を明確に推奨しています:

リミット出力
- max_completion_tokens
1. ランダム性を減らす
  - 下 temperature
  1. プロンプト分解
    - 複雑なプロンプトを小さなステップに分けましょう
    1. モデルルーター
      - 簡単なプロンプトを安価で高速なモデルにルーティングする
      1. プロビジョニング済みスループット
        
        予測可能なレイテンシのための専用容量
        
        レート制限/クォータ
        
        トークン/分の上限

[learn.microsoft.com]、[nano-gpt.com]

最終的な統合回答

(1) 対応のタイミング

✅ 遅延のみ ✅を測定並行性とシステム負荷❌に変動意図的な高負荷処理を単独で検出できない

(2) 重度の計算制御

❌ AOAIモデルレベルの機構はブロックや重計算の制限を設けません。✅コンテンツフィルターやプロンプトシールドは安全のみ✅のためです。すべてのパフォーマンス制御は顧客が行わなければなりません。

お役に立てれば幸いです。

ありがとうございます

2 件の回答

お客様の回答

SRILAKSHMI C 19,195 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-13T06:29:38.01+00:00

こんにちは。Tomoya Mikoshiba,

上記のご回答をご確認いただけましたでしょうか。何かご不明な点がございましたら、お知らせください。

よろしくお願いいたします。
Karnam Venkata Rajeswari 3,835 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-14T00:23:43.2833333+00:00

こんにちは Tomoya Mikoshiba,

上記の回答がお役に立てたかどうか、お知らせください。

ありがとうございます
Karnam Venkata Rajeswari 3,835 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-15T21:55:05.69+00:00

こんにちは、Tomoya Mikoshiba,

上記の回答がお役に立てば幸いです。

以前のコメントを回答に変換しましたので、承認済みとしてアップボートしていただけると幸いです。そうすることで、同じ質問を持つ他のユーザーが解決策を見つけやすくなります。

ありがとうございます
Tomoya Mikoshiba 60 評価のポイント

2026-05-25T08:50:12.5033333+00:00

こんにちは @SRILAKSHMI C @Karnam Venkata Rajeswari

本件、詳細な調査およびご教示ありがとうございます。

下記2点について、遅くとも5/27 AM中に調査状況と回答目途をご連携頂けますと幸いです。

① Time To Responceによってユーザ故意の高負荷処理の実行を検知する妥当性

Time to ResponseメトリックはあくまでAOAIモデルが応答するまでのレイテンシであって、同時接続ユーザ数等の負荷状況によって変動するものという認識はあっておりますでしょうか。

② 高負荷計算を要するプロンプトを実行に対するAOAIモデルの制御の仕組み等

高負荷計算を要するプロンプトを実行した場合、AOAIモデルにデフォルトで備わっているコンテンツフィルターやプロンプトシールド等の機能によってブロックや、推論処理そのものが制御されるような仕組みはございますでしょうか。

Microsoft Foundry モデル (クラシック) のコンテンツフィルター処理

Answer 1

おもや omoya Mikoshiba

ご返信が遅れてしまい、申し訳ございません。

計算負荷の高い入力については、応答時間やトークン数の増加を指標として測定することが可能です。

トークン数は、クエリの複雑さや長さに応じて増加します。

診断設定を有効にすることで、さまざまなメトリクスを収集でき、複雑または長文のクエリごとに異なるトークン量を可視化することができます。

promptTokens

completionTokens

処理済みトークン数

タイムスタンプ

デプロイメント名

また、KQL クエリを使用してカスタム監視ダッシュボードを作成することも可能です。

https://learn.microsoft.com/ja-jp/azure/data-explorer/azure-data-explorer-dashboards

https://learn.microsoft.com/ja-jp/azure/foundry/observability/concepts/trace-agent-concept

レイテンシの間接的な制御について

トークン消費量および応答時間は、以下のようなパラメータを調整することで制御することが可能です：

max_completion_tokens

temperature

また、複雑なプロンプトをよりシンプルなものに分割することや、モデルルーターを使用することでも改善が可能です。

以下は、同僚が説明した手順および設定（Azure OpenAI → メトリクス → レイテンシ → アラート）を直接裏付ける Microsoft 公式リファレンスです。

1. Azure OpenAI のレイテンシメトリクス（Time to Response）

✅ メトリクス: Time to Response（応答時間）

Microsoft は、Azure OpenAI ワークロードにおける正しいレイテンシ指標として Time to Response を明示しており、従来の Cognitive Services のレイテンシメトリクスは使用しないよう注意喚起しています。

公式リファレンス Azure OpenAI の監視データリファレンス

「Azure OpenAI のレイテンシ監視には、Time to Response、Time to Last Byte、Time Between Tokens、または Normalized Time to First Byte を使用してください。」

2. メトリック名前空間とディメンション

✅ メトリック名前空間 Azure OpenAI – Latency

✅ サポートされるディメンション

deploymentName

modelName

これらのディメンションは、Azure OpenAI メトリクスでサポートされているものとして明示されています。

公式リファレンス 監視データリファレンス – メトリックディメンション

これは次の説明を裏付けます：「これにより、高負荷なプロンプトを受信している特定のデプロイメントやモデルを特定・切り分けることができます。」

3. 集計方法（Avg / P95 / P99）

Microsoft は、テールレイテンシや異常なスパイクを特定するために、パーセンタイルを使用した分析を推奨しています。

公式リファレンス Azure OpenAI のパフォーマンスとレイテンシ

平均レイテンシ → ベースラインの挙動

P95 / P99 → 外れ値や負荷集中のシナリオ

✅ 以下が有効であることを示しています：

平均（Avg）

パーセンタイル（P95 / P99）

4. ベースラインレイテンシの確立

Microsoft は、しきい値を定義する前に、実際のワークロードの挙動を観察することを明確に推奨しています。

公式リファレンス レイテンシの評価 – Azure OpenAI

レイテンシはモデル、トークンサイズ、同時実行数によって変動するため、ベースラインは Azure Monitor の過去データに基づいて算出する必要があり、仮定すべきではありません。

✅ 以下の指示を裏付けます：「まず通常どおりにワークロードを実行し、ベースラインのレイテンシグラフを観察してください。」

5. しきい値（例：> 2000 ms）

Microsoft は固定のレイテンシ SLA を公開しておらず、しきい値はワークロードに依存すると明示しています。

公式リファレンス Azure OpenAI のパフォーマンスとレイテンシ

例：「応答時間が 2000 ms を超える（またはワークロードに応じてそれ以上）」

✅ これは固定値ではなく例として提示されているため、適切な説明です。

6. Azure Monitor メトリックアラートの作成

✅ メトリックベースのアラートは完全にサポートされています。

Azure Monitor では、以下を含むアラートを作成できます：

メトリック条件

集計方法（Avg / P95 / P99）

ディメンションフィルター

公式リファレンス Azure Monitor メトリックアラートの作成

✅ 以下の内容を裏付けます：

Time to Response をシグナルとして使用

しきい値ベースのアラート

デプロイメント／モデル単位のアラート設定

7. Azure OpenAI のエンドツーエンド監視

Microsoft は包括的な監視ガイドも提供しています。

公式リファレンス Microsoft Foundry における Azure OpenAI の監視

このドキュメントでは以下を統合的に説明しています：

メトリクス

アラート

Log Analytics

パフォーマンス診断

お役に立てば幸いです。

よろしくお願いいたします。以下が日本語（ja‑JP）への翻訳です：

おもや御柴様

ご返信が遅れてしまい、申し訳ございません。

計算負荷の高い入力については、応答時間やトークン数の増加を指標として測定することが可能です。

トークン数は、クエリの複雑さや長さに応じて増加します。

診断設定を有効にすることで、さまざまなメトリクスを収集でき、複雑または長文のクエリごとに異なるトークン量を可視化することができます。

promptTokens

completionTokens

処理済みトークン数

タイムスタンプ

デプロイメント名

また、KQL クエリを使用してカスタム監視ダッシュボードを作成することも可能です。

https://learn.microsoft.com/ja-jp/azure/data-explorer/azure-data-explorer-dashboards

https://learn.microsoft.com/ja-jp/azure/foundry/observability/concepts/trace-agent-concept

レイテンシの間接的な制御について

トークン消費量および応答時間は、以下のようなパラメータを調整することで制御することが可能です：

max_completion_tokens

temperature

また、複雑なプロンプトをよりシンプルなものに分割することや、モデルルーターを使用することでも改善が可能です。

以下は、同僚が説明した手順および設定（Azure OpenAI → メトリクス → レイテンシ → アラート）を直接裏付ける Microsoft 公式リファレンスです。

1. Azure OpenAI のレイテンシメトリクス（Time to Response）

✅ メトリクス: Time to Response（応答時間）

Microsoft は、Azure OpenAI ワークロードにおける正しいレイテンシ指標として Time to Response を明示しており、従来の Cognitive Services のレイテンシメトリクスは使用しないよう注意喚起しています。

公式リファレンス
Azure OpenAI の監視データリファレンス

「Azure OpenAI のレイテンシ監視には、Time to Response、Time to Last Byte、Time Between Tokens、または Normalized Time to First Byte を使用してください。」

2. メトリック名前空間とディメンション

✅ メトリック名前空間
Azure OpenAI – Latency

✅ サポートされるディメンション

deploymentName

modelName

これらのディメンションは、Azure OpenAI メトリクスでサポートされているものとして明示されています。

公式リファレンス
監視データリファレンス – メトリックディメンション

これは次の説明を裏付けます：
「これにより、高負荷なプロンプトを受信している特定のデプロイメントやモデルを特定・切り分けることができます。」

3. 集計方法（Avg / P95 / P99）

Microsoft は、テールレイテンシや異常なスパイクを特定するために、パーセンタイルを使用した分析を推奨しています。

公式リファレンス
Azure OpenAI のパフォーマンスとレイテンシ

平均レイテンシ → ベースラインの挙動

P95 / P99 → 外れ値や負荷集中のシナリオ

✅ 以下が有効であることを示しています：

平均（Avg）

パーセンタイル（P95 / P99）

4. ベースラインレイテンシの確立

Microsoft は、しきい値を定義する前に、実際のワークロードの挙動を観察することを明確に推奨しています。

公式リファレンス
レイテンシの評価 – Azure OpenAI

レイテンシはモデル、トークンサイズ、同時実行数によって変動するため、ベースラインは Azure Monitor の過去データに基づいて算出する必要があり、仮定すべきではありません。

✅ 以下の指示を裏付けます：
「まず通常どおりにワークロードを実行し、ベースラインのレイテンシグラフを観察してください。」

5. しきい値（例：> 2000 ms）

Microsoft は固定のレイテンシ SLA を公開しておらず、しきい値はワークロードに依存すると明示しています。

公式リファレンス
Azure OpenAI のパフォーマンスとレイテンシ

例：
「応答時間が 2000 ms を超える（またはワークロードに応じてそれ以上）」

✅ これは固定値ではなく例として提示されているため、適切な説明です。

6. Azure Monitor メトリックアラートの作成

✅ メトリックベースのアラートは完全にサポートされています。

Azure Monitor では、以下を含むアラートを作成できます：

メトリック条件

集計方法（Avg / P95 / P99）

ディメンションフィルター

公式リファレンス
Azure Monitor メトリックアラートの作成

✅ 以下の内容を裏付けます：

Time to Response をシグナルとして使用

しきい値ベースのアラート

デプロイメント／モデル単位のアラート設定

7. Azure OpenAI のエンドツーエンド監視

Microsoft は包括的な監視ガイドも提供しています。

公式リファレンス
Microsoft Foundry における Azure OpenAI の監視

このドキュメントでは以下を統合的に説明しています：

メトリクス

アラート

Log Analytics

パフォーマンス診断

お役に立てば幸いです。

よろしくお願いいたします。

Manas Mohanty 17,185 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-28T20:04:54.52+00:00

ねえ、 三島智也

私のコメントに賛成票をつけてくれたようですが、同じ文脈で他のコミュニティメンバーの助けになるために、検証済みとマークしてもらえますか?

ありがとうございます。

Answer 2

H様 Tomoya Mikoshiba,

ご質問ありがとうございます。

はい、Azure Monitorのメトリック、診断ログ、およびアラートルールを使用することで、通常よりも負荷が高い、あるいは実行時間が長いAzure OpenAI（AOAI）リクエストを監視・検知することが可能です。

ユーザーが意図的に計算負荷の高いプロンプト（例：極めて大規模な出力を生成するよう設計されたプロンプトや、過剰な処理時間を要するプロンプト）を送信するようなシナリオにおいては、以下のようなレイテンシ（応答遅延）関連のメトリックを監視することが推奨されるアプローチとなります。

• 応答までの時間（Time to Response） / エンドツーエンドのレイテンシ • 処理時間 • リクエストの実行時間 • リクエストの発行時刻 • プロンプト/完了トークンの急増 • レート制限（Rate limit）やスロットリングの発生イベント

Azure Monitorのアラート機能を使用すれば、応答レイテンシが定義済みのしきい値を超えた際に、自動的に検知を行うことができます。

推奨される設定手順：

Azure PortalでAzure OpenAIリソースを開く： • Azure OpenAIリソースの画面に移動します • [監視] → [メトリック] を開きます

レイテンシ関連のメトリックを選択する： • メトリック名前空間：Azure OpenAI – Latency • メトリック名：応答までの時間（Time to Response）

推奨される集計方法： • 平均（Avg） • 異常なレイテンシの急増を検知するためのパーセンタイル（P95/P99）

オプションのディメンション： • deploymentName • modelName

これにより、負荷の高いプロンプトを受け取っている可能性のある特定のデプロイやモデルを特定・分離することが可能になります。

レイテンシのしきい値を決定する：まずは通常通りのワークロードを実行し、ベースラインとなるレイテンシのグラフを観察してください。

その後、以下のようなしきい値を設定します： • 応答までの時間 > 2000 ms • または、想定されるワークロードに応じて、これより高い値を設定

Azure Monitorのアラートルールを作成する： [メトリック] ページから • [新しいアラートルール] をクリックします

設定例： • 条件：応答までの時間 > 2000 ms

• 集計：平均（Average）または最大（Maximum）

• 評価期間：過去5分間

• 評価頻度：1分ごと

さらに、以下の通知・アクション設定を行うことができます： • メール通知 • Webhook • Logic Apps • Automation Runbook • Teams/Slackへの通知

診断設定とLog Analyticsを有効にする：より詳細な分析を行うために • Azure OpenAIリソースの [診断設定] を有効にします • メトリックやログをLog Analyticsワークスペースへ送信するよう設定します

これにより、以下のことが可能になります： • 過去の履歴に基づいた分析の実行 • KQL（Kusto照会言語）を用いた検知ルールの構築 • 繰り返し発生する負荷の高いプロンプトの特定 • トークンの急増とレイテンシの相関関係の分析 • ログデータに基づいたアラートの作成検出可能なシナリオの例： • 極めて長い応答時間 • 過剰なトークン使用量 • 頻繁かつ高コストなリクエスト • レイテンシ（遅延）の急激な上昇 • 単一のクライアントまたはIPアドレスからの、計算負荷の高いプロンプトの繰り返し送信

Azure CLI の例：Azure CLI を使用して、プログラム経由でアラートを作成することも可能です。

az monitor metrics alert create \

--name HighLatencyAlert \

--resource-group MyRG \

--resource /subscriptions/<subscription-id>/resourceGroups/MyRG/providers/Microsoft.CognitiveServices/accounts/MyAOAI \

--condition "avg TimeToResponse > 2000" \

--description "Detect high-latency prompts" \

--window-size 5m \

--evaluation-frequency 1m \

--action /subscriptions/.../resourceGroups/.../providers/microsoft.insights/actionGroups/MyActionGroup

その他の推奨事項： • TPM（1分あたりのトークン数）および RPM（1分あたりのリクエスト数）のクォータを設定する • リクエストにおける max_tokens の上限を制限する • アプリケーション層において、プロンプトの検証やガードレール（安全策）を実装する • API Management のレート制限ポリシーを適用する • 平均値だけでなく、P95（95パーセンタイル）や P99（99パーセンタイル）のレイテンシも監視対象に含める

なお、Azure OpenAI では現在、特定のプロンプトを「意図的な高負荷計算」を伴うリクエストとして明示的に分類する機能は提供されていません。そのため、検出は一般的に以下の要素を間接的に利用して行われます： • レイテンシ（遅延）に関するメトリック • トークンの消費量 • スループットの異常 • および、高コストなリクエストが繰り返されるパターン

Please refer this

モニター Azure OpenAI – レイテンシメトリック https://learn.microsoft.com/ja-jp/azure/foundry/openai/monitor-openai-reference#category-azure-openai---latency

Azure Monitor アラートの概要 https://learn.microsoft.com/ja-jp/azure/azure-monitor/alerts/alerts-overview

Azure CLI でのアラートルール作成 https://learn.microsoft.com/ja-jp/cli/azure/monitor/metrics/alert#az_monitor_metrics_alert_create

本情報がお役に立てば幸いです。ご不明な点がございましたら、お気軽にお問い合わせください。

よろしくお願いいたします。

Tomoya Mikoshiba 60 評価のポイント

2026-05-22T01:25:17.9666667+00:00

こんにちは、@SRILAKSHMI C

ご回答ありがとうございます。

Time to Responseを検知したとしても、あるユーザが超高負荷計算を要するプロンプトがあるかどうかって分からないような気がしてきました。

全体の利用状況で応答時間は遅れるのであって、個人で頑張っても全体でみたらそんなに影響しないのではないかと思うのですが、ご意見聞かせてください。

また、高負荷計算を要するプロンプトを実行したとして

モデル自体が回答を生成する前に自発的に制御する仕組み等はございますでしょうか。

この点について、参考になるドキュメント等ございましたらご教示いただけますでしょうか。
Tomoya Mikoshiba 60 評価のポイント

2026-05-22T02:07:35.61+00:00

こんにちは、@SRILAKSHMI C

ご回答ありがとうございます。

Time to Responseを検知したとしても、あるユーザが超高負荷計算を要するプロンプトがあるかどうかって分からないような気がしてきました。

全体の利用状況で応答時間は遅れるのであって、個人で頑張っても全体でみたらそんなに影響しないのではないかと思うのですが、ご意見聞かせてください。

また、高負荷計算を要するプロンプトを実行したとして

モデル自体が回答を生成する前に自発的に制御する仕組み等はございますでしょうか。

この点について、参考になるドキュメント等ございましたらご教示いただけますでしょうか。
Manas Mohanty 17,185 評価のポイント Microsoft 外部スタッフモデレーター

2026-05-26T23:51:26.1733333+00:00

付け加えたいです

消費するトークン量や応答時間などは、max_completion_tokenや温度を調整し、複雑なプロンプトから単純なプロンプトに分割し、モデルルーターを使うことで調整できます

ありがとうございます。

次の方法で共有

AOAIモデルにおける故意の高負荷処理の実行を検知する方法について

① Time To Responceによってユーザ故意の高負荷処理の実行を検知する妥当性

② 高負荷計算を要するプロンプトを実行に対するAOAIモデルの制御の仕組み等

(1) タイム・トゥ・レスポンスによる意図的な高負荷ユーザー処理の検出の妥当性

短い答え

実際に「対応までの時間」が測定しているもの

なぜ対応までの時間は変動するのか

Time to Responseは意図的な高負荷プロンプトを検出できますか?

(2) AOAIにおける重計算プロンプトの実行制御メカニズム

キーの説明

* 存在するもの(そして存在しないもの)*

✅ コンテンツフィルター(Microsoft Foundry – Classic)

✅ プロンプト・シールド

✅ 保護された素材/接地性

AOAIがしないこと

✅ 顧客が重計算を管理する方法(推奨)

最終的な統合回答

(1) 対応のタイミング

(2) 重度の計算制御

2 件の回答

1. Azure OpenAI のレイテンシメトリクス（Time to Response）

2. メトリック名前空間とディメンション

3. 集計方法（Avg / P95 / P99）

4. ベースライン レイテンシの確立

5. しきい値（例：> 2000 ms）

6. Azure Monitor メトリック アラートの作成

7. Azure OpenAI のエンドツーエンド監視

1. Azure OpenAI のレイテンシメトリクス（Time to Response）

2. メトリック名前空間とディメンション

3. 集計方法（Avg / P95 / P99）

4. ベースライン レイテンシの確立

5. しきい値（例：> 2000 ms）

6. Azure Monitor メトリック アラートの作成

7. Azure OpenAI のエンドツーエンド監視

お客様の回答

4. ベースラインレイテンシの確立

6. Azure Monitor メトリックアラートの作成

4. ベースラインレイテンシの確立

6. Azure Monitor メトリックアラートの作成