自律エージェント AI システムをセキュリティで保護する

柱名: 脅威の監視と検出
パターン名: エージェント AI システムをセキュリティで保護する

コンテキストと問題

自律エージェント AI システムは、限られた人間の介入で、ツールの計画、呼び出し、データへのアクセス、アクションの実行を行うことができます。自律性が高まるにつれて、ミスアラインメント、誤用、侵害の潜在的な影響も大きくなります。

コンパニオンパターンとプラクティスに関する記事では、自律的なエージェント AI システムのリスクの軽減に関する記事で、エージェントの動作によってもたらされる設計、セキュリティ、ガバナンスのリスクについて概説します。このパターンは 、リスク識別 から リスク削減に移行し、実際にはそれらのリスクを軽減するコントロールと設計上の決定に焦点を当てています。

ソリューション

エージェントシステムをセキュリティで保護するには、個々のレイヤーで障害を想定し、単一の障害によって許容できない損害が生じないようにシステムを設計する 多層防御 戦略が必要です。

軽減策レイヤー内のコントロール

モデルレイヤーコントロール

このモデルはエージェントの推論エンジンとして機能し、エージェントが命令を解釈し、アクションを計画し、敵対的な入力に応答する方法に影響します。モデルによって、エージェントの出力とアクションに影響を与えるさまざまな機能と安全性機能が提供されます。適切なモデルを選択すると、ミスアラインメント、エラー、および安全でない結果を回避できます。

推奨されるコントロール:

意図的なモデルの選択: 推論の深さ、拒否動作、ツールの使用特性がエージェントの自律性とリスクプロファイルと一致するモデルを選択します。タスクの配置ミスと安全でないアクションを軽減します。
サプライチェーンガバナンスをモデル化する: バージョンの追跡、更新プログラムの確認、デプロイ前の変更の検証によって、モデルをセキュリティの依存関係として扱います。サプライチェーンの侵害を軽減します。
評価とレッドチーム: クロスプロンプトインジェクション、意図の破壊、安全でないツールの選択など、エージェントによる脅威のモデルを継続的にテストします。エージェントのハイジャックと意図しないアクションを軽減します。
機能の配置: システムのニーズを満たす単純なモデルまたは制約付きモデルが多い場合は、過剰に対応するモデルを使用しないでください。過度の自律性と爆発半径の増加を軽減します。

安全システムレイヤーコントロール

安全システムレイヤーは、エージェントが信頼されていないコンテンツ、ツール、API、およびユーザーと対話しているときに、実行時にエラーをインターセプトします。これらのセーフガードは、エージェントのハイジャック、有害な出力、機密データの漏洩、実行時の誤用など、運用上のリスクに対する基本的な防御を形成します。

推奨されるコントロール:

入力と出力のフィルター処理: 間接的なプロンプトインジェクションを含む、悪意のある、操作的、または安全でない入力と出力を検出してブロックします。エージェントのハイジャックと機密データ漏えいを軽減します。
エージェントガードレール: タスクの準拠を強制し、実行中にスコープ外または安全でないツールの呼び出しを防ぎます。意図しないアクションと影響の大きい誤用を軽減します。
ログ記録と可観測性: エージェントの計画、ツールの呼び出し、決定、結果をキャプチャして、監査、インシデント対応、改善をサポートします。理解可能性の失敗と検出されない誤用を改善します。
不正使用と異常検出: 繰り返されるバイパス試行や異常動作パターンを監視します。永続的なプローブとステルス流出を軽減します。

アプリケーション層コントロール

アプリケーション層は、エージェントの設計方法、実行できるアクション、および制御の適用方法を定義します。ここで、安全の原則が強制可能なシステム動作になります。

推奨されるコントロール:

マイクロサービスとしてのエージェント: 分離されたアクセス許可と狭いスコープのツールアクセスを使用して、マイクロサービスなどのエージェントを設計します。ミスアラインメント、ブラスト半径、機密データ漏えいを軽減します。
明示的なアクションスキーマ: 許可されるアクション、必要な入力、リスクレベル、実行制約、およびログ要件を定義します。意図しないアクションと安全でないツールの呼び出しを軽減します。
確定的なヒューマン・イン・ザ・ループ (HITL): モデルの推論ではなく、オーケストレーターロジックを通じて、高リスクまたは元に戻せないアクションについて人間によるレビューを徹底します。監視コントロールのギャップとミスアラインメントを軽減します。
最小限の特権と最小限のアクションの設計: 既定では許可されていないアクションから開始し、ロールとリスクに基づいて機能を段階的に有効にします。 RBAC を適用するために、各エージェントに一意の検証可能な ID を割り当てます。機密データ漏えい、エージェントスプロール、過剰権限を軽減します。
強化としてのシステムメッセージ: 構造化されたシステム命令を使用して、常に決定論的な制御によってサポートされる役割と境界を強化します。エージェントのハイジャックとミスアラインメントを軽減します。

レイヤーコントロールのポジショニング

配置レイヤーは、人々がエージェントシステムを理解し、信頼し、依存する方法を形作ります。位置が悪いと、技術的な制御が強い場合でもリスクが生じる可能性があります。

推奨されるコントロール:

明確な開示: ユーザーが自律 AI エージェントと対話する場合は、それを明示的にします。透明性と漏えいの失敗を軽減します。
機能の透過性: 制限事項や不確実性を含め、エージェントができることとできないことを伝えます。エージェントを権威ある、または絶対的な存在であるように配置しないでください。不適切な依存を軽減します。
ユーザーが表示できる境界: ユーザーが異常な動作を検出できるように、計画されたアクション、承認、結果を表示します。理解可能性の障害を軽減します。
セキュリティで保護された UX パターン: レビュー、承認、シャットダウンのメカニズムがアクセス可能で保護されていることを確認します。誤用と過度の依存を軽減します。

Microsoft ソリューション

上記のコントロールでは、実装する内容について説明します。次の Microsoft ソリューションは、ID、ガバナンス、ランタイムの適用、検出全体でこれらの軽減策を運用化するのに役立ちます。

プライマリコントロールプレーン

Microsoft Agent 365:
- 一元化されたインベントリ、ガバナンス、アクセス境界、およびエージェント間の可視性を提供します。
- サポート: エージェントのスプロール防止、最小限の特権、ガバナンス。サポート: エージェントスプロールの防止、特権の最小化、ガバナンス。

モデルの選択と評価

Microsoft Foundry のモデルカタログ。安全性とセキュリティベースラインなど、ユースケースに適したモデルを評価して選択します。
Microsoft Foundry の AI Red Teaming Agent と Python Risk Identification Tool (PyRIT) (レッドチームと継続的な評価用)。

安全システムとランタイムの軽減策

Microsoft Foundry (ガードレール、コンテンツフィルター、不正使用の監視)
- タスクの準拠を強制し、信頼されていない入力と出力をフィルター処理し、誤用パターンを検出します。
- サポート: 迅速なインジェクション軽減、漏えい防止。

ID とデータ保護

Microsoft Entra:
- エージェントの ID、条件付きアクセス、ロールベースのアクセス制御を提供します。
- サポート: 最小特権、アクセス制御。
Microsoft Purview:
- データの分類、ガバナンス、ポリシーの適用を提供します。
- サポート: 機密データ保護。

UX 設計

開示と人間中心の UX パターンのための人間の AI インタラクション (HAX) ツールキット。
セキュア・バイ・デザイン UX ツールキットはセキュア UX パターンのためのものです。

検出と応答 (サポート)

セキュリティ体制管理、シグナル相関、およびエージェントワークロード間のインシデント対応のための Microsoft Defender と Microsoft Sentinel。
エージェントの動作とパフォーマンスに関するテレメトリと可観測性のための Azure Monitor と Application Insights。

ガイダンス

このパターンを採用しようとしている組織は、次の実用的なプラクティスを適用できます。

プラクティスカテゴリ	推奨アクション	資源
ツール、エージェント、モデルのガバナンス	サポートされているフレームワークを使用してエージェントを Foundry にオンボードするか、カスタムエージェントを登録する	Microsoft Foundry コントロールプレーン
コンテンツの安全性と迅速なインジェクションの回復性	入力と出力をフィルター処理する。取得したコンテンツを信頼されていないコンテンツとして扱う。間接的なプロンプトの挿入をブロックする	ファウンドリのコンテンツフィルタリングとプロンプトシールド
タスクの順守と工具の安全性	ツールの許可リストと確定的検証を適用する	ファウンドリーエージェントガードレール
AI のレッドチーミング	プロンプトインジェクション、意図の破壊、不適切なツール選択、リークについて継続的にテストする	ファウンドリーAIレッドチーミングエージェント / PyRIT
エージェントの ID とアクセス	最小限の特権、条件付きアクセス、ライフサイクルガバナンスを適用する	Microsoft Entra
データガバナンスとコンプライアンス	機密データの分類と保護	Microsoft Purview
体制管理	構成と脆弱性を評価する	Microsoft Defender for Cloud
誤用の検出	ログとトレースを関連付ける	Microsoft Sentinel

結果

特典

エージェントは、定義された意図、アクセス許可、および境界内で動作します。
リスクの高いアクションには、確定的な人間の承認が必要です。
エージェントの動作は、監視可能で監査可能で、大規模に管理できます。
機密データの公開は、最小限の特権とポリシーの適用によって減少します。
組織は、エージェントの使用量が増加するにつれて可視性と制御を維持します。
信頼は、透明性、説明責任、予測可能な動作によって構築されます。

トレードオフ

階層化されたコントロールを実装するには、追加のエンジニアリング作業が必要です。
自律システムは、アーキテクチャと運用の複雑さを導入します。
人間による監視により、リスクの高いワークフローに摩擦が加えられます。
ガバナンスと可観測性には、継続的な運用投資が必要です。

主な成功要因

タスクの遵守
人間の関与
決定論的セーフガード
透明性と開示
ハイジャック耐性
最小限の特権とガバナンス
サプライチェーンの認識

まとめ

人間の可能性のロックを解除することは、信頼から始まります。エージェントシステムが自律的に計画、決定、行動する能力は、小さなミスアラインメント、監視、またはセキュリティギャップが重大な結果と信頼の喪失につながる可能性があることを意味します。

これらのシステムがツール、API、およびその他のエージェントとより深く統合されるにつれて、それらの動作はますます複雑になり、損害が発生する可能性のある経路も複雑になります。エージェントの動作に関連するリスクは全身的であり、完全なシステムスタックにまたがる軽減戦略が必要です。

モデル、安全システム、アプリケーション、および配置レイヤー全体に多層防御を適用し、Microsoft の統合されたセキュリティとエージェント管理エコシステムを活用することで、組織は自律的で監視可能で回復性のあるエージェントシステムを設計によってデプロイできます。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-19

次の方法で共有

自律エージェント AI システムをセキュリティで保護する

コンテキストと問題

ソリューション

軽減策レイヤー内のコントロール

モデル レイヤー コントロール

安全システムレイヤーコントロール

アプリケーション 層コントロール

レイヤーコントロールのポジショニング

Microsoft ソリューション

プライマリ コントロール プレーン

モデルの選択と評価

安全システムとランタイムの軽減策

ID とデータ保護

UX 設計

検出と応答 (サポート)

ガイダンス

結果

特典

トレードオフ

主な成功要因

まとめ

フィードバック

その他のリソース

モデルレイヤーコントロール

アプリケーション層コントロール

プライマリコントロールプレーン