自律エージェント AI システムのリスクを特定する

柱名: 脅威の監視と検出
パターン名: 自律エージェント AI システムのリスクを軽減する

コンテキストと問題

自律エージェント AI システムは、1 つのプロンプトに応答するのではなく、目標に向けてアクションを計画、実行、適応させることができます。 ツールを呼び出し、API を呼び出し、データにアクセスし、サービス間で調整する可能性があるため、人間の介入が制限された現実世界の効果を生み出すことができます。 この自律性は、エラーの影響と、敵対者に対するシステムの魅力の両方を高めます。 エージェントとツールの間、エージェントとサービスの間、およびエージェント同士の対話によって、攻撃対象領域が拡大されると同時に、間接プロンプトインジェクション攻撃、意図しないアクション、データ流出などのリスクが生じる可能性があります。

自律的なエージェント AI システムでは、次のリスク (網羅的ではない) が一般的に発生します。

設計上のリスク

  • タスクの準拠: エージェントは、ユーザーの目的のタスク、計画、または目標に合わないアクションを実行します。
  • 人間の監視と管理: システムには、ユーザーのレビュー、承認、修正、自律行動の中断に関する意味のあるポイントがありません。
  • システムの明瞭度: ユーザーは、エージェントが何をしているか、何を計画しているか、または既に行っているかを把握していません。
  • 透明性と開示: ユーザーまたはダウンストリームの受信者は、AI システムと対話しているか、AI によって生成されたアクション/出力に遭遇していることを認識していません。

セキュリティ リスク

  • エージェントハイジャック: データと命令の境界があいまいなため、悪意のある入力または信頼されていない入力がツール呼び出しをハイジャックします。
  • 機密データ漏えい: 機密データ、独自データ、または個人データは、出力、ログ、メモリ、またはダウンストリームアクションを通じて公開されます。
  • サプライ チェーンの侵害: 脆弱性は、モデル、ツール、プラグイン、接地データ、またはその他のエージェントの依存関係によって導入されます。
  • エージェントのスプロール: 管理されていないエージェントまたは過剰なアクセス許可を持つエージェントが急増し、セキュリティ リスクが高まり、IT 監視が減少します。

これらのリスクに対処するには、 基本的な設計原則リスク固有の軽減策の両方が必要であり、エージェントのライフサイクル全体で一貫して適用されます。

ソリューション

自律的なエージェント AI システムのリスクを軽減するには、基本的な設計の柱 (エージェントの動作とユーザーの制御の維持方法) と、対象となるセキュリティとガバナンスの軽減策 (システムが攻撃に抵抗し、安全にスケーリングする方法) を組み合わせています。 次の柱は、これらの脅威に対処するための責任あるエージェント システム設計の基礎を形成します。 これらはすべてのエージェントのユース ケースに適用され、複数のリスクを同時に軽減するのに役立ちます。

基本設計の柱

タスクの遵守

タスクの準拠が不十分な場合は、エージェントがユーザーの意図したタスク、計画、または目標に完全に対応していないアクションを実行すると発生します。 エージェントは、意図の解釈を誤ったり、必要な手順をスキップしたり、ユーザーが承認しなかった推論された目標を追求したりする可能性があります。

このリスクを管理するには:

  • 明確なシステムの目的と境界を定義して、エージェントが意図を確実に解釈し、意図したアクションのみを実行するようにします。
  • 決定論的コントロールを使用して、モデルの出力に関係なく禁止されたアクションをブロックします。
  • 最小特権と最小アクションを適用します。 必要な最小限のツール、データ、操作のみを許可します。 既定では、他のすべてを拒否します。
  • 高いリスクを伴うタスクと、システムがそのリスクを処理する方法について、過剰な依存を防ぐために通信します。

人間の監視と制御

人間の監視とは、特に入力があいまいな場合、アクションが大きな影響を及ぼす場合、または敵対的な操作が可能な場合に、自律的な動作をガイド、修正、割り込みするための意味のある制御をユーザーに与えることを意味します。

このリスクを管理するには:

  • エージェントがアクセス、実行、記憶できる機能の境界をユーザーが設定できるようにします。
  • 危険度の高いアクションまたは元に戻せないアクションの承認が必要です。
  • エージェントを安全かつすぐに一時停止または停止するための信頼性の高いシステム レベルのメカニズムを提供します。
  • 実行全体で組織のポリシーとユーザー設定を一貫して適用します。

AIシステムの可解性

Intelligibility は、システムが実行する予定を示し、実行中にフィードバックを提供し、使用されたツールやデータなど、何が起こったかを要約することを意味します。 可視性がないと、ユーザーは間違いを元に戻したり、インシデントに対応したり、結果を改善したりすることはできません。

システムの明瞭性を設計するには:

  • 実行前に、特に高リスクまたは元に戻せない手順に対して、計画されたアクションを表示します。
  • 展開中にユーザーが動作を追跡できるように、リアルタイムの状態と進行状況を提供します。
  • 結果の要約: 何が起こったか、重要な決定事項、およびエージェントがそこに到達するために使用した内容。
  • 監査とインシデント対応のアクション、ツール、結果を記録するアクセス可能な実行後ログを保持します。

透明性と開示

自律エージェント システムは、バックグラウンドで動作し、対話を開始しなかったユーザーに影響を与える可能性があります。 明確な開示は、期待を設定し、混乱を減らし、より安全な使用をサポートします。

操作を透過的かつわかりやすいものにするには:

  • 特にリスクの高いドメインまたはダウンストリーム コンテキストで、ユーザーが AI システムと対話するタイミングを明確に示します。
  • システムの目的、境界、およびシステムが実行できることとできないことについて説明します。
  • ユーザーが信頼を適切に調整できるように、制限や不確実性を明らかにする。
  • ダウンストリームの受信者が AI によって生成された出力またはアクションを認識し、その実績を理解できることを確認します。

システムのセキュリティとガバナンスのリスク

エージェントハイジャック

エージェントハイジャックは、悪意のある入力または信頼されていない入力がエージェントの推論またはツールの実行を操作するときに発生します。 エージェント システムでは、データと命令の間のあいまいな分離により、クロスプロンプトインジェクション攻撃によってツールの呼び出しまたはワークフローをリダイレクトできます。

エージェントハイジャックのリスクを管理するには:

  • 既定では、すべての外部入力 (取得したコンテンツとツールの出力を含む) を信頼されていないものとして扱います。
  • 命令、データ、メモリ、およびツールのパラメーターを厳密に分離します。
  • エージェントの推論またはツール実行パスに到達する前に、入力をフィルター処理して悪意のあるパターンを検出してブロックします。
  • allowlist ツールを実装し、実行前にパラメーターを確定的に検証します。
  • 暗黙的な命令のフォローを最小限に抑えるには、推論された意図ではなく、明示的なシステム定義ルールでエージェントの動作を固定します。

機密データの漏えい

機密データ漏洩は、出力、ログ、メモリ、またはダウンストリームアクションを通じて機密、専有、または個人情報が公開されるときに発生します。 エージェントが複数のソース間で集計したり、有効期間の長いコンテキストを保持したりすると、リスクが増加します。

機密データ漏洩のリスクを管理するには:

  • エージェント ID とデータ ソースに最小限の特権を適用し、現在のタスクに対してのみアクセス権を付与します。
  • 機密データを分類して管理し、使用、保持、出力に対して決定論的ルールを適用します。
  • 有効期間の長いメモリを制限し、必要なものだけを保持し、明示的に管理します。
  • 出力とログを監視およびフィルター処理して、不正な開示を検出して防止します。

サプライ チェーンの侵害

サプライ チェーンの侵害は、モデル、ツール、プラグイン、接地データ、またはその他の依存関係によって脆弱性が導入されたときに発生します。 どのコンポーネントの弱点も、自律的な意思決定と実行に反映される可能性があります。

サプライ チェーンのリスクを軽減するには:

  • エージェントによって使用されるすべてのモデル、ツール、プラグイン、データ ソースのインベントリを作成し、セキュリティ境界の一部として確認します。
  • バージョン管理と変更制御を適用して、更新プログラムが意図的かつレビュー可能になるようにします。
  • 爆発の影響範囲を減らし、連鎖的な障害を防ぐためにコンポーネントを分離します。
  • 依存関係の侵害またはデータ中毒を示す可能性のある異常を監視します。
  • 個々のコンポーネントが失敗し、それに応じて補正コントロールを設計する可能性があるとします。

エージェントの過剰展開

エージェントの拡散とは、管理が行き届いていないエージェントまたは過剰なアクセス許可を持つエージェントの制御不能な増殖を指します。 スプロールは攻撃対象領域を拡大し、最小限の特権を弱め、アカウンタビリティと IT 監視を減らします。

エージェントの過剰展開を減らすには:

  • エージェントによって使用されるすべてのモデル、ツール、プラグイン、データ ソースのインベントリを作成し、セキュリティ境界の一部として確認します。
  • 責任あるチームや個人を含め、すべてのエージェントの明確な所有権とアカウンタビリティを確立します。
  • 登録、承認、有効期限、使用停止などのエージェント ライフサイクル ガバナンスを適用します。
  • 既定では最小限の特権を適用し、各エージェントにそのロールに必要な最小限のアクセス許可、ツール、データ アクセスのみを付与します。
  • 一意の監査可能な ID をエージェントに割り当てて、承認、ポリシーの適用、追跡可能性を有効にします。

ガイダンス

このパターンを採用しようとしている組織は、次の実用的なプラクティスを適用できます。

練習カテゴリ 推奨アクション 資源
共同責任 人間による監督により、組織はエージェントの行動に対して責任を持ち続けることができます 人工知能 (AI) 共有責任モデル
モデルの選択肢 モデルの選択は、ベースライン コントロールであり、エージェント システムにおける重要なサプライ チェーンの決定です。 意図的なモデルの選択が安全でスマートなエージェントを開放する Microsoft Foundry モデル カタログ
コンテンツの安全性とタスクの準拠 悪意のある入力や操作的な入力を検出してブロックし、間接的なプロンプトインジェクション攻撃を含める Microsoft Foundry の リスクと安全評価者
不正使用の監視 誤用パターン、バイパス試行の繰り返し、または異常なエージェントの動作を監視する Microsoft Foundry Azure OpenAI の不正使用の監視
エージェント ID エージェントの過剰拡大を防ぐために、最小特権、隔離、ライフサイクル管理、および監査可能性を適用する Microsoft Entra エージェント ID
依存関係のガバナンス エージェントによって使用されるモデル、ツール、プラグイン、データ ソースのインベントリ、検証、バージョン管理、監視 Microsoft Foundry モデル カタログ
人間中心のデザイン エージェントの機能と制限事項、人間による監視、誤用と過度の依存の軽減についてユーザーが理解できるようにする 設計によるセキュリティ保護 UX ツールキット

結果

特典

  • エージェントは、定義された意図、アクセス許可、および境界内でのみ実行されます。
  • ユーザーは、リスクの高いアクションを確認し、承認し、また中断することができます。
  • システムの動作は、明確な計画、フィードバック、ログを通じて監視可能で監査可能です。
  • 機密データの公開は、最小限の特権、ガバナンス、監視によって削減されます。
  • 組織は、チームやツール間でエージェントの使用状況がスケーリングされるため、可視性と制御を維持します。
  • ユーザーは、システムの動作に対する信頼を構築し、維持します。

トレードオフ

  • 確定的なセーフガード、監視、およびログ記録を構築するには、追加の設計とエンジニアリング作業が必要です。
  • マルチエージェントシステムは複雑さを増し、予期しないやり取りと結果の機会を増やします。
  • 明確な開示と明瞭性には意図的な UX 計画が必要であり、ワークフローに摩擦が生じる可能性があります。

主な成功要因

  • タスクの準拠: エージェントは、意図したとおりにアクションを実行します。
  • 人間の関与: 人間は、影響の大きいエージェントアクションやあいまいなエージェントアクションに対する責任を引き続き負います。
  • 決定論的セーフガード: 禁止されたアクションは、モデルの動作に関係なく確実にブロックされます。
  • 透明性と開示: ユーザーとダウンストリームの受信者は、エージェントがいつ行動し、何を使用するかを理解します。
  • エージェントハイジャック: エージェントは、間接プロンプトインジェクションに対して備える多層防御を持ち、インシデントを監視し、安全にシャットダウンできるように設定されています。
  • 最小限の特権とガバナンス: エージェント ID、アクセス許可、およびライフサイクルは、スプロールを防ぐために管理されます。
  • サプライ チェーンの認識: モデル、ツール、およびデータ ソースは、セキュリティの依存関係として扱われます。

まとめ

自律エージェント AI システムは、AI 対応ソフトウェアができることを拡張しますが、その自律性によってリスクが増幅されます。 基本的な設計の柱 (タスクの遵守、人間の監視、システムの明瞭性、開示) は、エージェントを意図とユーザーの管理に合わせて維持するのに役立ちます。 エージェントハイジャック、機密データ漏洩、サプライ チェーンの侵害、エージェントのスプロールなどの全身的なリスクには、最小限の特権、決定論的なガードレール、ガバナンス、監視に基づいている標的型の軽減策が必要です。 多層防御と明確な説明責任により、組織は自律的で監視可能で、設計によって回復力のあるエージェント システムをスケーリングできます。