安全的自主代理人工智慧系統

支柱名稱:監視和偵測威脅
模式名稱:安全代理型 AI 系統


內容和問題

自主代理 AI 系統能在有限的人工干預下規劃、調用工具、存取資料並執行行動。 隨著自主性提升,錯位、誤用與妥協的潛在影響也隨之增加。

配套文章《Patterns and Practices》一文《 降低自主代理型 AI 系統的風險 》概述了代理行為所帶來的設計、安全與治理風險。 此模式從 風險識別 轉向 風險降低,聚焦於實務中降低風險的控制與設計決策。

解決方案

保障能動系統需要一套防禦 深度 策略,假設個別層級失效,並設計系統以確保單一失誤不會導致不可接受的傷害。

緩解層內的控制措施

模型圖層控制

模型作為代理人的推理引擎,影響代理人如何解讀指令、規劃行動及回應對抗性輸入。 不同模型提供不同的能力與安全功能,影響代理人的輸出與行動。 選擇合適的模型有助於避免錯位、錯誤及不安全結果。

推薦的控制措施:

  • 有意識的模型選擇: 選擇推理深度、拒絕行為及工具使用特徵與代理人自主性及風險特徵相符的模型。 減少任務不協調與不安全行為。
  • 供應鏈治理範例: 將模型視為安全依賴,透過追蹤版本、審查更新並在部署前驗證變更來處理。 減緩供應鏈漏洞。
  • 評估與紅隊: 持續測試代理性威脅模型,如跨提示注入、意圖破壞及不安全工具選擇。 可減少特務劫持及非預期行為。
  • 能力對齊: 當較簡單或受限的模型符合系統需求時,避免使用過強的模型。 減少過度自主和爆炸範圍擴大。

安全系統層控制

安全系統層在執行時攔截故障,當代理人員與不受信任的內容、工具、API 及使用者互動時。 這些防護措施構成了對抗營運風險的重要防禦,包括代理人員劫持、有害輸出、敏感資料外洩及執行時濫用。

推薦的控制措施:

  • 輸入與輸出濾波: 偵測並阻擋惡意、操控性或不安全的輸入與輸出,包括間接的提示注入。 可減少客服人員劫持及敏感資料外洩。
  • 特務護欄: 強制執行任務,防止執行時超出範圍或不安全的工具調用。 減少非預期行為及高衝擊誤用。
  • 記錄與可觀察性: 擷取客服人員計畫、工具呼叫、決策與成果,以支援稽核、事件回應與改進。 減少可辨識度不足及未被發現的誤用。
  • 濫用與異常偵測: 監控反覆繞道嘗試或異常行為模式。 減少持續的探查與隱蔽逃脫。

應用層控制

應用層定義代理的架構架構、可採取的行動,以及控制措施的執行方式。 這時安全原則成為可執行的系統行為。

推薦的控制措施:

  • 代理作為微服務: 設計代理喜歡微服務,擁有隔離權限和狹窄工具存取範圍。 可減少錯位、爆炸範圍及敏感資料外洩。
  • 明確的動作架構: 定義允許的動作、所需輸入、風險等級、執行限制及日誌需求。 減少非預期行為和不安全的工具召喚。
  • 確定性人類參與循環(HITL): 透過協調邏輯而非模型推理,強制高風險或不可逆行為進行人工審查。 減少監督、控制缺口與不協調。
  • 最小特權與最少行動設計: 預設不允許任何動作,並根據角色與風險逐步啟用能力。 為每位代理人指派一個唯一且可驗證的身份以執行 RBAC。 可減少敏感資料外洩、代理人員蔓延及過度權限。
  • 系統訊息作為強化: 使用結構化系統指令來強化角色與界限,並始終以確定性控制為後盾。 可減少特工劫持與錯位。

定位層控制

定位層塑造了人們如何理解、信任並依賴代理系統。 即使技術控制嚴密,位置不佳也可能帶來風險。

推薦的控制措施:

  • 明確揭露: 當使用者與自主 AI 代理互動時,必須明確說明。 緩解透明度及揭露失誤。
  • 能力透明度: 溝通代理人能做什麼、不能做什麼,包括限制和不確定性。 避免將代理人定位為權威或無懈可擊。 減少不當依賴。
  • 使用者可見的邊界: 呈現計畫中的行動、核准與結果,讓使用者能偵測異常行為。 減少可理解性失誤。
  • 安全使用者體驗模式: 確保審查、核准及關閉機制可存取且受到保護。 減少誤用與過度依賴。

Microsoft 解決方案

上述控制說明了要實作什麼。 以下 Microsoft 解決方案協助在身份、治理、執行時執行及偵測等方面落實這些緩解措施。

主要控制平面

  • Microsoft Agent 365
    • 提供集中式庫存管理、治理、存取邊界及跨代理可視性。
    • 支持:防止代理人蔓延、最小權限與治理。 支持:防止代理人蔓延、最小權限、治理。

模型選擇與估值

安全系統與運行時間緩解措施

  • Microsoft Foundry(護欄、內容過濾器、濫用監控)
    • 強制執行任務遵循、過濾不受信任的輸入與輸出,並偵測誤用模式。
    • 支援:迅速注射緩解、防止漏水。

身份與資料保護

  • Microsoft Entra

    • 提供代理人員的身份、條件存取及基於角色的存取控制。
    • 支援:最低權限、存取控制。
  • Microsoft Purview

    • 提供資料分類、治理及政策執行。
    • 支援:敏感資料保護。

使用者體驗設計

偵測與應變(支援)

  • Microsoft DefenderMicrosoft Sentinel 用於安全態勢管理、訊號關聯及跨代理工作負載的事件回應。
  • Azure MonitorApplication Insights 用於遙測與可觀察性,用於代理行為與效能。

指導

尋求採用此模式的組織可採用以下可行的做法:

實作類別 建議的行動 資源
工具、代理與模型的治理 使用支援的框架或註冊自訂代理程式,將代理程式接載至 Foundry Microsoft Foundry 控制平面
內容安全與即時注入韌性 過濾輸入與輸出;將檢索內容視為不可信;阻止間接提示注入攻擊 Foundry 內容過濾與提示盾
任務遵循與工具安全 強制工具允許清單與確定性驗證 鑄造代理護欄
AI 紅隊演習 進行持續測試提示注入、意圖破壞、工具選擇不當及洩漏 Foundry AI 紅隊特工 / PyRIT
代理人的身份與存取權 應用最小權限、條件存取與生命週期治理 Microsoft Entra
資料治理與合規 分類並保護敏感資料 Microsoft Purview
態勢管理 評估配置與漏洞 適用於雲端的 Microsoft Defender
偵測濫用 關聯日誌與追蹤覽跡 Microsoft Sentinel

結果

福利

  • 代理人在定義的意圖、權限與邊界內運作。
  • 高風險行動需要確定性的人類批准。
  • 代理人的行為是可觀察、可稽核且可大規模管理的。
  • 透過最小權限與政策執行,敏感資料暴露得以減少。
  • 隨著代理使用率增加,組織仍保有可視性與控制權。
  • 信任建立於透明、問責與可預測的行為中。

取捨

  • 要實施分層控制則需要額外的工程努力。
  • 自主系統帶來架構與營運的複雜性。
  • 人工監督會為高風險工作流程增添阻力。
  • 治理與可觀察性需要持續的營運投資。

關鍵成功因素

  • 任務依從性
  • 人類參與
  • 確定性保障措施
  • 透明度和披露
  • 防劫持措施
  • 最小特權與治理
  • 供應鏈意識

總結

釋放人類潛能始於信任。 代理系統能夠自主規劃、決策與行動,意味著小規模的不一致、疏漏或安全缺口都可能導致重大後果與信任流失。

隨著這些系統與工具、API 及其他代理者深度整合,其行為變得越來越複雜,傷害發生的路徑也隨之複雜。 代理行為所帶來的風險是系統性的,需要涵蓋整個系統堆疊的緩解策略。

透過在模型、安全系統、應用及定位層層間應用深度防禦,並善用 Microsoft 整合的安全與代理管理生態系統,組織能部署設計上具備自主性、可觀察性且具韌性的代理系統。