生成 AI とエージェント AI システムの可観測性

柱名: 脅威の監視と検出
パターン名: プラットフォーム、アプリケーション、モデルを含む、ジェネレーティブ AI およびエージェント AI システムの可観測性

コンテキストと問題

企業が AI システム (特に Generative AI (GenAI) とエージェント AI) を採用、構築、使用する場合、従来の可観測性プラクティスでは十分ではなくなりました。 従来のソフトウェアは主に決定論的であり、運用テレメトリで確実に説明できる予測可能な実行パスがあります。 ただし、今日の AI システムはこのように機能しません。これらは設計上確率的です。 GenAI システムの出力は実行によって異なり、"実行" は、1 つの再現可能なパスではなく、考えられる動作に対する分布です。

AI システムの動作を監視、理解、トラブルシューティングする機能が必要な場合は、AI ネイティブ信号を組み込むために、従来の可観測性のログ、メトリック、トレースを進化させる必要があります。また、システムの可視性のための適切なツールキットを用意し、信頼できる機能を構築できるように、評価とガバナンスを含むように監視プラクティスを拡張する必要があります。 パフォーマンスの高い AI システムを大規模に提供します。

主な課題は次のとおりです。

  • AI システムは非決定論的であり、入力、取得コンテキスト、ツール出力、ポリシー/ガードレールの決定に応じて動作が変化する可能性があり、システムの可視性ははるかに複雑になります。 従来の可観測性は、GenAI またはエージェント AI システムでは十分ではありません。待機時間、エラー、スループットに重点を置きすぎています。
  • アップタイムとエラー率は、AI システムの品質と信頼性を示す適切な指標ではありません。
  • AI システムは、より多くの特権とアクセスによってますます自律的になっています。 一部のシステムでは、機密データの操作、外部 API の呼び出し、ワークフローの開始、エンタープライズ環境間での操作が可能です。 これらのシステムが脅威アクターの標的にされたり、誤用されたりすると、可観測性が重要なニーズになります。
  • デプロイされるエージェントが増えるにつれて、企業は自分の 資産にいくつの AI エージェントが存在するかなどの質問に答えたいと考えています。エージェントはどのように動作しますか?使用量やその他のシグナルのピークは、エージェントの誤用を示していますか?
  • 企業は AI システムの導入と統合をスプリントする一方で、AI システムの可観測性の導入は遅れています。

これらの課題は、企業が監視ツールとプラクティスを進化させ、AI システムの導入に見合った大規模な導入を行う必要性を強調しています。

ソリューション

ログ、メトリック、トレースを AI ネイティブに進化させます。

  1. ログ要求 ID コンテキスト、タイムスタンプ、会話/実行識別子、ユーザー入力とシステム応答、取得ソースの実績、エージェント/ツール呼び出し (ツール名、引数、アクセス許可、出力) などの実行の詳細と共に、OpenTelemetry GenAI セマンティック規則を使用してトレースとメトリックを表します。 何をキャプチャして保持するかは、プライバシー、データ所在地、データの最小化、保持要件、法的および規制上の義務に対するフォレンジック ニーズのバランスを取る明確なデータ コントラクトによって管理する必要があります。アクセス制御と暗号化は、エンタープライズ ポリシーとリスク評価に合わせて調整されます。
  2. トークンの使用状況、待機時間、エラー率、ツールの呼び出しまたは要求の量、およびその他のメトリックを使用してシステムを監視します。
    • 要求全体(トレース)のプロセスを記録し、エージェントの実行における各ステップをすべて結びつけます。
    • OpenTelemetry (OTel) を使用して標準化します。 インシデントの再構築には、ログ記録とテレメトリで十分である必要があります。
  3. 品質と安全性を継続的に追跡し、ポリシーの決定を取り込むための評価を組み込みます。
  4. 行動ベースラインを確立し、偏差に関するアラートを生成します。 AI システムに対する "通常" の外観を決定します。
  5. コントロール、セキュリティ、ガバナンス、および基本プリミティブを検討するには、可観測性を超えて考えてください。
  6. Microsoft Secure Development Lifecycle (SDL) や Secure Future Initiative (SFI) などのスケーリングされたメカニズムを使用して、GenAI および AI エージェント製品全体で標準化されたログ記録と可観測性を企業全体に適用します。

ガイダンス

組織は、次の手順を使用して同様のプラクティスを採用できます。

利用シーン 推奨されるアクション 資源
AIネイティブの監査ログ AIアシスタントとエージェントの相互作用イベント、およびこれに関連するコンテキストメタデータをログに記録する Microsoft Purview
データの標準化 スパンとトレースが一貫するように、OpenTelemetry (OTel) GenAI セマンティック規則に合わせます。 ご期待ください。OTel の属性ファミリは、マルチエージェント オーケストレーション (タスクやメモリを含む) をサポートする提案で 拡張される可能性があります OTel GenAI セマンティック規則
エージェントの動作を理解してデバッグする トレース ツールの呼び出し、エージェントの決定、およびサービス間の依存関係 Microsoft Foundry エージェントトレース (プレビュー)
品質、安全性、信頼性を測定する 品質に関する回帰テストまたはゲーティング リリースに対して、接地性、安全性/リスク、ツールの使用の正確性などの結果に関するモデルまたはエージェントの出力をスコア付けする Microsoft Foundry 評価者
ツール、エージェント、モデルのガバナンス Microsoft がサポートするフレームワークを使用してエージェントを Foundry にオンボードするか、独自のカスタム エージェントを登録します。 Microsoft Foundry コントロール プレーン
生産監視 Application Insights リソースを作成し、組み込みの機能とワークブックを使用してダッシュボードを公開する Azure Monitor Application Insights
誤用の検出 シグナル相関のための「Purview」の取り込みログと「Foundry + Application Insights」のトレース Microsoft Sentinel

Microsoft Agent 365 を使用している企業の場合:

利用シーン 推奨されるアクション 資源
エンタープライズの可観測性とガバナンスの統合 Microsoft Agent 365 Observability SDK (エージェント 365 SDK の一部) を使用して、管理者の可視性や Defender/Purview 統合を含む、エージェント 365 ガバナンス用に OTel で調整されたテレメトリを出力する Microsoft Agent 365 Observability SDK (フロンティア プレビュー)
テナント全体のガバナンス Microsoft 365 管理センターの Microsoft Agent 365 を使用して、テナント全体のすべてのエージェントを管理します。 Microsoft Agent 365 (フロンティア プレビュー)

結果

特典

  • AI システムの可視性、監視、制御が向上しました。
  • セキュリティ体制の強化。
  • 脅威アクティビティの再構築が容易になり、平均検出と対応時間 (MTTD/MTTR) が短縮されます。
  • リリース ゲーティングまたは回帰テストに使用できる評価により、品質、信頼性、安全性が向上します。

Trade-offs

  • 監視ツールと規則は、AI システムの進化に合わせて進化しています。 企業は、AI システムの継続的なセキュリティ、整合性、および安全性を確保するために、可観測性の新しい開発を常に把握し、維持する必要があります。
  • AI システムのログ記録とトレースを標準化するには、全社的なイニシアチブとリーダーシップサポートが必要な場合があります。
  • AI の可観測性は、"設定して忘れる" ことはめったにありません。運用上のオーバーヘッドが発生する継続的なプロセスです。

主な成功要因

進行状況を測定するには、次の KPI を追跡します。

  • AI システムの可観測性のカバレッジ。監視可能な AI システム全体の割合 (監視バックエンドへのログとトレースの出力)。
  • 品質と信頼性のために運用環境のしきい値を維持するために標準評価スイートを実行しているリリースの割合。
  • テレメトリの対象となる AI の悪用とセキュリティ シナリオの割合。 不正使用とセキュリティの上位シナリオ (プロンプトインジェクションやデータ流出など) を特定し、検出して対応するために必要なテレメトリがあることを確認します。

まとめ

GenAI およびエージェント AI システムの可観測性は、基本的なセキュリティとガバナンスのプラクティスです。 AI システムの可観測性を実現するには、収集するシグナルとテレメトリの種類を進化させる必要があります。新しいプリミティブを作成する。コントロール プレーンを再イメージ化して、システムで何が起こっているかを正確に確認し、管理できるようにします。 AI の可観測性を採用し、企業全体で実施する組織では、インシデントが発生したときに AI システムを調査し、行動の進化に合わせて改善し、運用環境で説明責任を持って運用することができます。