次の方法で共有


自律エージェント AI システムをセキュリティで保護する

柱名: 脅威の監視と検出
パターン名: エージェント AI システムをセキュリティで保護する


コンテキストと問題

自律エージェント AI システムは、限られた人間の介入で、ツールの計画、呼び出し、データへのアクセス、アクションの実行を行うことができます。 自律性が高まるにつれて、ミスアラインメント、誤用、侵害の潜在的な影響も大きくなります。

コンパニオン パターンとプラクティスに関する記事では、 自律的なエージェント AI システムのリスクの軽減 に関する記事で、エージェントの動作によってもたらされる設計、セキュリティ、ガバナンスのリスクについて概説します。 このパターンは 、リスク識別 から リスク削減に移行し、実際にはそれらのリスクを軽減するコントロールと設計上の決定に焦点を当てています。

ソリューション

エージェント システムをセキュリティで保護するには、個々のレイヤーで障害を想定し、単一の障害によって許容できない損害が生じないようにシステムを設計する 多層防御 戦略が必要です。

軽減策レイヤー内のコントロール

モデル レイヤー コントロール

このモデルはエージェントの推論エンジンとして機能し、エージェントが命令を解釈し、アクションを計画し、敵対的な入力に応答する方法に影響します。 モデルによって、エージェントの出力とアクションに影響を与えるさまざまな機能と安全性機能が提供されます。 適切なモデルを選択すると、ミスアラインメント、エラー、および安全でない結果を回避できます。

推奨されるコントロール:

  • 意図的なモデルの選択: 推論の深さ、拒否動作、ツールの使用特性がエージェントの自律性とリスク プロファイルと一致するモデルを選択します。 タスクの配置ミスと安全でないアクションを軽減します。
  • サプライ チェーン ガバナンスをモデル化する: バージョンの追跡、更新プログラムの確認、デプロイ前の変更の検証によって、モデルをセキュリティの依存関係として扱います。 サプライ チェーンの侵害を軽減します。
  • 評価とレッドチーム: クロスプロンプトインジェクション、意図の破壊、安全でないツールの選択など、エージェントによる脅威のモデルを継続的にテストします。 エージェントのハイジャックと意図しないアクションを軽減します。
  • 機能の配置: システムのニーズを満たす単純なモデルまたは制約付きモデルが多い場合は、過剰に対応するモデルを使用しないでください。 過度の自律性と爆発半径の増加を軽減します。

安全システムレイヤーコントロール

安全システムレイヤーは、エージェントが信頼されていないコンテンツ、ツール、API、およびユーザーと対話しているときに、実行時にエラーをインターセプトします。 これらのセーフガードは、エージェントのハイジャック、有害な出力、機密データの漏洩、実行時の誤用など、運用上のリスクに対する基本的な防御を形成します。

推奨されるコントロール:

  • 入力と出力のフィルター処理: 間接的なプロンプトインジェクションを含む、悪意のある、操作的、または安全でない入力と出力を検出してブロックします。 エージェントのハイジャックと機密データ漏えいを軽減します。
  • エージェント ガードレール: タスクの準拠を強制し、実行中にスコープ外または安全でないツールの呼び出しを防ぎます。 意図しないアクションと影響の大きい誤用を軽減します。
  • ログ記録と可観測性: エージェントの計画、ツールの呼び出し、決定、結果をキャプチャして、監査、インシデント対応、改善をサポートします。 理解可能性の失敗と検出されない誤用を改善します。
  • 不正使用と異常検出: 繰り返されるバイパス試行や異常動作パターンを監視します。 永続的なプローブとステルス流出を軽減します。

アプリケーション 層コントロール

アプリケーション層は、エージェントの設計方法、実行できるアクション、および制御の適用方法を定義します。 ここで、安全の原則が強制可能なシステム動作になります。

推奨されるコントロール:

  • マイクロサービスとしてのエージェント: 分離されたアクセス許可と狭いスコープのツール アクセスを使用して、マイクロサービスなどのエージェントを設計します。 ミスアラインメント、ブラスト半径、機密データ漏えいを軽減します。
  • 明示的なアクション スキーマ: 許可されるアクション、必要な入力、リスク レベル、実行制約、およびログ要件を定義します。 意図しないアクションと安全でないツールの呼び出しを軽減します。
  • 確定的なヒューマン・イン・ザ・ループ (HITL): モデルの推論ではなく、オーケストレーター ロジックを通じて、高リスクまたは元に戻せないアクションについて人間によるレビューを徹底します。 監視コントロールのギャップとミスアラインメントを軽減します。
  • 最小限の特権と最小限のアクションの設計: 既定では許可されていないアクションから開始し、ロールとリスクに基づいて機能を段階的に有効にします。 RBAC を適用するために、各エージェントに一意の検証可能な ID を割り当てます。 機密データ漏えい、エージェントスプロール、過剰権限を軽減します。
  • 強化としてのシステム メッセージ: 構造化されたシステム命令を使用して、常に決定論的な制御によってサポートされる役割と境界を強化します。 エージェントのハイジャックとミスアラインメントを軽減します。

レイヤーコントロールのポジショニング

配置レイヤーは、人々がエージェント システムを理解し、信頼し、依存する方法を形作ります。 位置が悪いと、技術的な制御が強い場合でもリスクが生じる可能性があります。

推奨されるコントロール:

  • 明確な開示: ユーザーが自律 AI エージェントと対話する場合は、それを明示的にします。 透明性と漏えいの失敗を軽減します。
  • 機能の透過性: 制限事項や不確実性を含め、エージェントができることとできないことを伝えます。 エージェントを権威ある、または絶対的な存在であるように配置しないでください。 不適切な依存を軽減します。
  • ユーザーが表示できる境界: ユーザーが異常な動作を検出できるように、計画されたアクション、承認、結果を表示します。 理解可能性の障害を軽減します。
  • セキュリティで保護された UX パターン: レビュー、承認、シャットダウンのメカニズムがアクセス可能で保護されていることを確認します。 誤用と過度の依存を軽減します。

Microsoft ソリューション

上記のコントロールでは、実装する内容について説明します。 次の Microsoft ソリューションは、ID、ガバナンス、ランタイムの適用、検出全体でこれらの軽減策を運用化するのに役立ちます。

プライマリ コントロール プレーン

  • Microsoft Agent 365:
    • 一元化されたインベントリ、ガバナンス、アクセス境界、およびエージェント間の可視性を提供します。
    • サポート: エージェントのスプロール防止、最小限の特権、ガバナンス。 サポート: エージェントスプロールの防止、特権の最小化、ガバナンス。

モデルの選択と評価

安全システムとランタイムの軽減策

  • Microsoft Foundry (ガードレール、コンテンツ フィルター、不正使用の監視)
    • タスクの準拠を強制し、信頼されていない入力と出力をフィルター処理し、誤用パターンを検出します。
    • サポート: 迅速なインジェクション軽減、漏えい防止。

ID とデータ保護

  • Microsoft Entra:

    • エージェントの ID、条件付きアクセス、ロールベースのアクセス制御を提供します。
    • サポート: 最小特権、アクセス制御。
  • Microsoft Purview:

    • データの分類、ガバナンス、ポリシーの適用を提供します。
    • サポート: 機密データ保護。

UX 設計

検出と応答 (サポート)

  • セキュリティ体制管理、シグナル相関、およびエージェント ワークロード間のインシデント対応のための Microsoft DefenderMicrosoft Sentinel
  • エージェントの動作とパフォーマンスに関するテレメトリと可観測性のための Azure MonitorApplication Insights

ガイダンス

このパターンを採用しようとしている組織は、次の実用的なプラクティスを適用できます。

プラクティス カテゴリ 推奨アクション 資源
ツール、エージェント、モデルのガバナンス サポートされているフレームワークを使用してエージェントを Foundry にオンボードするか、カスタム エージェントを登録する Microsoft Foundry コントロール プレーン
コンテンツの安全性と迅速なインジェクションの回復性 入力と出力をフィルター処理する。取得したコンテンツを信頼されていないコンテンツとして扱う。間接的なプロンプトの挿入をブロックする ファウンドリのコンテンツフィルタリングとプロンプトシールド
タスクの順守と工具の安全性 ツールの許可リストと確定的検証を適用する ファウンドリーエージェントガードレール
AI のレッド チーミング プロンプトインジェクション、意図の破壊、不適切なツール選択、リークについて継続的にテストする ファウンドリーAIレッドチーミングエージェント / PyRIT
エージェントの ID とアクセス 最小限の特権、条件付きアクセス、ライフサイクル ガバナンスを適用する Microsoft Entra
データ ガバナンスとコンプライアンス 機密データの分類と保護 Microsoft Purview
体制管理 構成と脆弱性を評価する Microsoft Defender for Cloud
誤用の検出 ログとトレースを関連付ける Microsoft Sentinel

結果

特典

  • エージェントは、定義された意図、アクセス許可、および境界内で動作します。
  • リスクの高いアクションには、確定的な人間の承認が必要です。
  • エージェントの動作は、監視可能で監査可能で、大規模に管理できます。
  • 機密データの公開は、最小限の特権とポリシーの適用によって減少します。
  • 組織は、エージェントの使用量が増加するにつれて可視性と制御を維持します。
  • 信頼は、透明性、説明責任、予測可能な動作によって構築されます。

トレードオフ

  • 階層化されたコントロールを実装するには、追加のエンジニアリング作業が必要です。
  • 自律システムは、アーキテクチャと運用の複雑さを導入します。
  • 人間による監視により、リスクの高いワークフローに摩擦が加えられます。
  • ガバナンスと可観測性には、継続的な運用投資が必要です。

主な成功要因

  • タスクの遵守
  • 人間の関与
  • 決定論的セーフガード
  • 透明性と開示
  • ハイジャック耐性
  • 最小限の特権とガバナンス
  • サプライ チェーンの認識

まとめ

人間の可能性のロックを解除することは、信頼から始まります。 エージェントシステムが自律的に計画、決定、行動する能力は、小さなミスアラインメント、監視、またはセキュリティギャップが重大な結果と信頼の喪失につながる可能性があることを意味します。

これらのシステムがツール、API、およびその他のエージェントとより深く統合されるにつれて、それらの動作はますます複雑になり、損害が発生する可能性のある経路も複雑になります。 エージェントの動作に関連するリスクは全身的であり、完全なシステム スタックにまたがる軽減戦略が必要です。

モデル、安全システム、アプリケーション、および配置レイヤー全体に多層防御を適用し、Microsoft の統合されたセキュリティとエージェント管理エコシステムを活用することで、組織は自律的で監視可能で回復性のあるエージェント システムを設計によってデプロイできます。