支柱名稱:監視和偵測威脅
模式名稱:安全代理型 AI 系統
內容和問題
自主代理 AI 系統能在有限的人工干預下規劃、調用工具、存取資料並執行行動。 隨著自主性提升,錯位、誤用與妥協的潛在影響也隨之增加。
配套文章《Patterns and Practices》一文《 降低自主代理型 AI 系統的風險 》概述了代理行為所帶來的設計、安全與治理風險。 此模式從 風險識別 轉向 風險降低,聚焦於實務中降低風險的控制與設計決策。
解決方案
保障能動系統需要一套防禦 深度 策略,假設個別層級失效,並設計系統以確保單一失誤不會導致不可接受的傷害。
緩解層內的控制措施
模型圖層控制
模型作為代理人的推理引擎,影響代理人如何解讀指令、規劃行動及回應對抗性輸入。 不同模型提供不同的能力與安全功能,影響代理人的輸出與行動。 選擇合適的模型有助於避免錯位、錯誤及不安全結果。
推薦的控制措施:
- 有意識的模型選擇: 選擇推理深度、拒絕行為及工具使用特徵與代理人自主性及風險特徵相符的模型。 減少任務不協調與不安全行為。
- 供應鏈治理範例: 將模型視為安全依賴,透過追蹤版本、審查更新並在部署前驗證變更來處理。 減緩供應鏈漏洞。
- 評估與紅隊: 持續測試代理性威脅模型,如跨提示注入、意圖破壞及不安全工具選擇。 可減少特務劫持及非預期行為。
- 能力對齊: 當較簡單或受限的模型符合系統需求時,避免使用過強的模型。 減少過度自主和爆炸範圍擴大。
安全系統層控制
安全系統層在執行時攔截故障,當代理人員與不受信任的內容、工具、API 及使用者互動時。 這些防護措施構成了對抗營運風險的重要防禦,包括代理人員劫持、有害輸出、敏感資料外洩及執行時濫用。
推薦的控制措施:
- 輸入與輸出濾波: 偵測並阻擋惡意、操控性或不安全的輸入與輸出,包括間接的提示注入。 可減少客服人員劫持及敏感資料外洩。
- 特務護欄: 強制執行任務,防止執行時超出範圍或不安全的工具調用。 減少非預期行為及高衝擊誤用。
- 記錄與可觀察性: 擷取客服人員計畫、工具呼叫、決策與成果,以支援稽核、事件回應與改進。 減少可辨識度不足及未被發現的誤用。
- 濫用與異常偵測: 監控反覆繞道嘗試或異常行為模式。 減少持續的探查與隱蔽逃脫。
應用層控制
應用層定義代理的架構架構、可採取的行動,以及控制措施的執行方式。 這時安全原則成為可執行的系統行為。
推薦的控制措施:
- 代理作為微服務: 設計代理喜歡微服務,擁有隔離權限和狹窄工具存取範圍。 可減少錯位、爆炸範圍及敏感資料外洩。
- 明確的動作架構: 定義允許的動作、所需輸入、風險等級、執行限制及日誌需求。 減少非預期行為和不安全的工具召喚。
- 確定性人類參與循環(HITL): 透過協調邏輯而非模型推理,強制高風險或不可逆行為進行人工審查。 減少監督、控制缺口與不協調。
- 最小特權與最少行動設計: 預設不允許任何動作,並根據角色與風險逐步啟用能力。 為每位代理人指派一個唯一且可驗證的身份以執行 RBAC。 可減少敏感資料外洩、代理人員蔓延及過度權限。
- 系統訊息作為強化: 使用結構化系統指令來強化角色與界限,並始終以確定性控制為後盾。 可減少特工劫持與錯位。
定位層控制
定位層塑造了人們如何理解、信任並依賴代理系統。 即使技術控制嚴密,位置不佳也可能帶來風險。
推薦的控制措施:
- 明確揭露: 當使用者與自主 AI 代理互動時,必須明確說明。 緩解透明度及揭露失誤。
- 能力透明度: 溝通代理人能做什麼、不能做什麼,包括限制和不確定性。 避免將代理人定位為權威或無懈可擊。 減少不當依賴。
- 使用者可見的邊界: 呈現計畫中的行動、核准與結果,讓使用者能偵測異常行為。 減少可理解性失誤。
- 安全使用者體驗模式: 確保審查、核准及關閉機制可存取且受到保護。 減少誤用與過度依賴。
Microsoft 解決方案
上述控制說明了要實作什麼。 以下 Microsoft 解決方案協助在身份、治理、執行時執行及偵測等方面落實這些緩解措施。
主要控制平面
-
Microsoft Agent 365:
- 提供集中式庫存管理、治理、存取邊界及跨代理可視性。
- 支持:防止代理人蔓延、最小權限與治理。 支持:防止代理人蔓延、最小權限、治理。
模型選擇與估值
- Microsoft Foundry 的模型目錄 用以評估並選擇適合使用情境的模型,包括安全與保全基線。
- Microsoft Foundry 的 AI 紅隊代理 與 Python 風險識別工具(PyRIT) 用於紅隊及持續評估。
安全系統與運行時間緩解措施
-
Microsoft Foundry(護欄、內容過濾器、濫用監控)
- 強制執行任務遵循、過濾不受信任的輸入與輸出,並偵測誤用模式。
- 支援:迅速注射緩解、防止漏水。
身份與資料保護
Microsoft Entra:
- 提供代理人員的身份、條件存取及基於角色的存取控制。
- 支援:最低權限、存取控制。
Microsoft Purview:
- 提供資料分類、治理及政策執行。
- 支援:敏感資料保護。
使用者體驗設計
- 人類 AI 互動(HAX)工具包,用於揭露與以人為本的使用者體驗模式。
- Secure by Design UX 工具包, 提供安全 UX 模式
偵測與應變(支援)
- Microsoft Defender 與 Microsoft Sentinel 用於安全態勢管理、訊號關聯及跨代理工作負載的事件回應。
- Azure Monitor 與 Application Insights 用於遙測與可觀察性,用於代理行為與效能。
指導
尋求採用此模式的組織可採用以下可行的做法:
| 實作類別 | 建議的行動 | 資源 |
|---|---|---|
| 工具、代理與模型的治理 | 使用支援的框架或註冊自訂代理程式,將代理程式接載至 Foundry | Microsoft Foundry 控制平面 |
| 內容安全與即時注入韌性 | 過濾輸入與輸出;將檢索內容視為不可信;阻止間接提示注入攻擊 | Foundry 內容過濾與提示盾 |
| 任務遵循與工具安全 | 強制工具允許清單與確定性驗證 | 鑄造代理護欄 |
| AI 紅隊演習 | 進行持續測試提示注入、意圖破壞、工具選擇不當及洩漏 | Foundry AI 紅隊特工 / PyRIT |
| 代理人的身份與存取權 | 應用最小權限、條件存取與生命週期治理 | Microsoft Entra |
| 資料治理與合規 | 分類並保護敏感資料 | Microsoft Purview |
| 態勢管理 | 評估配置與漏洞 | 適用於雲端的 Microsoft Defender |
| 偵測濫用 | 關聯日誌與追蹤覽跡 | Microsoft Sentinel |
結果
福利
- 代理人在定義的意圖、權限與邊界內運作。
- 高風險行動需要確定性的人類批准。
- 代理人的行為是可觀察、可稽核且可大規模管理的。
- 透過最小權限與政策執行,敏感資料暴露得以減少。
- 隨著代理使用率增加,組織仍保有可視性與控制權。
- 信任建立於透明、問責與可預測的行為中。
取捨
- 要實施分層控制則需要額外的工程努力。
- 自主系統帶來架構與營運的複雜性。
- 人工監督會為高風險工作流程增添阻力。
- 治理與可觀察性需要持續的營運投資。
關鍵成功因素
- 任務依從性
- 人類參與
- 確定性保障措施
- 透明度和披露
- 防劫持措施
- 最小特權與治理
- 供應鏈意識
總結
釋放人類潛能始於信任。 代理系統能夠自主規劃、決策與行動,意味著小規模的不一致、疏漏或安全缺口都可能導致重大後果與信任流失。
隨著這些系統與工具、API 及其他代理者深度整合,其行為變得越來越複雜,傷害發生的路徑也隨之複雜。 代理行為所帶來的風險是系統性的,需要涵蓋整個系統堆疊的緩解策略。
透過在模型、安全系統、應用及定位層層間應用深度防禦,並善用 Microsoft 整合的安全與代理管理生態系統,組織能部署設計上具備自主性、可觀察性且具韌性的代理系統。