安全的自主代理人工智慧系統

支柱名稱：監視和偵測威脅
模式名稱：安全代理型 AI 系統

內容和問題

自主代理 AI 系統能在有限的人工干預下規劃、調用工具、存取資料並執行行動。隨著自主性提升，錯位、誤用與妥協的潛在影響也隨之增加。

配套文章《Patterns and Practices》一文《降低自主代理型 AI 系統的風險》概述了代理行為所帶來的設計、安全與治理風險。此模式從 風險識別 轉向 風險降低，聚焦於實務中降低風險的控制與設計決策。

解決方案

保障能動系統需要一套防禦深度策略，假設個別層級失效，並設計系統以確保單一失誤不會導致不可接受的傷害。

緩解層內的控制措施

模型圖層控制

模型作為代理人的推理引擎，影響代理人如何解讀指令、規劃行動及回應對抗性輸入。不同模型提供不同的能力與安全功能，影響代理人的輸出與行動。選擇合適的模型有助於避免錯位、錯誤及不安全結果。

推薦的控制措施：

有意識的模型選擇： 選擇推理深度、拒絕行為及工具使用特徵與代理人自主性及風險特徵相符的模型。減少任務不協調與不安全行為。
供應鏈治理範例： 將模型視為安全依賴，透過追蹤版本、審查更新並在部署前驗證變更來處理。減緩供應鏈漏洞。
評估與紅隊： 持續測試代理性威脅模型，如跨提示注入、意圖破壞及不安全工具選擇。可減少特務劫持及非預期行為。
能力對齊： 當較簡單或受限的模型符合系統需求時，避免使用過強的模型。減少過度自主和爆炸範圍擴大。

安全系統層控制

安全系統層在執行時攔截故障，當代理人員與不受信任的內容、工具、API 及使用者互動時。這些防護措施構成了對抗營運風險的重要防禦，包括代理人員劫持、有害輸出、敏感資料外洩及執行時濫用。

推薦的控制措施：

輸入與輸出濾波： 偵測並阻擋惡意、操控性或不安全的輸入與輸出，包括間接的提示注入。可減少客服人員劫持及敏感資料外洩。
特務護欄： 強制執行任務，防止執行時超出範圍或不安全的工具調用。減少非預期行為及高衝擊誤用。
記錄與可觀察性： 擷取客服人員計畫、工具呼叫、決策與成果，以支援稽核、事件回應與改進。減少可辨識度不足及未被發現的誤用。
濫用與異常偵測： 監控反覆繞道嘗試或異常行為模式。減少持續的探查與隱蔽逃脫。

應用層控制

應用層定義代理的架構架構、可採取的行動，以及控制措施的執行方式。這時安全原則成為可執行的系統行為。

推薦的控制措施：

代理作為微服務： 設計代理喜歡微服務，擁有隔離權限和狹窄工具存取範圍。可減少錯位、爆炸範圍及敏感資料外洩。
明確的動作架構： 定義允許的動作、所需輸入、風險等級、執行限制及日誌需求。減少非預期行為和不安全的工具召喚。
確定性人類參與循環（HITL）： 透過協調邏輯而非模型推理，強制高風險或不可逆行為進行人工審查。減少監督、控制缺口與不協調。
最小特權與最少行動設計： 預設不允許任何動作，並根據角色與風險逐步啟用能力。為每位代理人指派一個唯一且可驗證的身份以執行 RBAC。可減少敏感資料外洩、代理人員蔓延及過度權限。
系統訊息作為強化： 使用結構化系統指令來強化角色與界限，並始終以確定性控制為後盾。可減少特工劫持與錯位。

定位層控制

定位層塑造了人們如何理解、信任並依賴代理系統。即使技術控制嚴密，位置不佳也可能帶來風險。

推薦的控制措施：

明確揭露： 當使用者與自主 AI 代理互動時，必須明確說明。緩解透明度及揭露失誤。
能力透明度： 溝通代理人能做什麼、不能做什麼，包括限制和不確定性。避免將代理人定位為權威或無懈可擊。減少不當依賴。
使用者可見的邊界： 呈現計畫中的行動、核准與結果，讓使用者能偵測異常行為。減少可理解性失誤。
安全使用者體驗模式： 確保審查、核准及關閉機制可存取且受到保護。減少誤用與過度依賴。

Microsoft 解決方案

上述控制說明了要實作什麼。以下 Microsoft 解決方案協助在身份、治理、執行時執行及偵測等方面落實這些緩解措施。

主要控制平面

Microsoft Agent 365：
- 提供集中式庫存管理、治理、存取邊界及跨代理可視性。
- 支持：防止代理人蔓延、最小權限與治理。支持：防止代理人蔓延、最小權限、治理。

模型選擇與估值

Microsoft Foundry 的模型目錄用以評估並選擇適合使用情境的模型，包括安全與保全基線。
Microsoft Foundry 的 AI 紅隊代理與 Python 風險識別工具（PyRIT）用於紅隊及持續評估。

安全系統與運行時間緩解措施

Microsoft Foundry（護欄、內容過濾器、濫用監控）
- 強制執行任務遵循、過濾不受信任的輸入與輸出，並偵測誤用模式。
- 支援：迅速注射緩解、防止漏水。

身份與資料保護

Microsoft Entra：
- 提供代理人員的身份、條件存取及基於角色的存取控制。
- 支援：最低權限、存取控制。
Microsoft Purview：
- 提供資料分類、治理及政策執行。
- 支援：敏感資料保護。

使用者體驗設計

人類 AI 互動（HAX）工具包，用於揭露與以人為本的使用者體驗模式。
Secure by Design UX 工具包，提供安全 UX 模式

偵測與應變（支援）

Microsoft Defender 與 Microsoft Sentinel 用於安全態勢管理、訊號關聯及跨代理工作負載的事件回應。
Azure Monitor 與 Application Insights 用於遙測與可觀察性，用於代理行為與效能。

指導

尋求採用此模式的組織可採用以下可行的做法：

實作類別	建議的行動	資源
工具、代理與模型的治理	使用支援的框架或註冊自訂代理程式，將代理程式接載至 Foundry	Microsoft Foundry 控制平面
內容安全與即時注入韌性	過濾輸入與輸出;將檢索內容視為不可信;阻止間接提示注入攻擊	Foundry 內容過濾與提示盾
任務遵循與工具安全	強制工具允許清單與確定性驗證	鑄造代理護欄
AI 紅隊演習	進行持續測試提示注入、意圖破壞、工具選擇不當及洩漏	Foundry AI 紅隊特工 / PyRIT
代理人的身份與存取權	應用最小權限、條件存取與生命週期治理	Microsoft Entra
資料治理與合規	分類並保護敏感資料	Microsoft Purview
態勢管理	評估配置與漏洞	適用於雲端的 Microsoft Defender
偵測濫用	關聯日誌與追蹤覽跡	Microsoft Sentinel

結果

福利

代理人在定義的意圖、權限與邊界內運作。
高風險行動需要確定性的人類批准。
代理人的行為是可觀察、可稽核且可大規模管理的。
透過最小權限與政策執行，敏感資料暴露得以減少。
隨著代理使用率增加，組織仍保有可視性與控制權。
信任建立於透明、問責與可預測的行為中。

取捨

要實施分層控制則需要額外的工程努力。
自主系統帶來架構與營運的複雜性。
人工監督會為高風險工作流程增添阻力。
治理與可觀察性需要持續的營運投資。

關鍵成功因素

任務依從性
人類參與
確定性保障措施
透明度和披露
防劫持措施
最小特權與治理
供應鏈意識

總結

釋放人類潛能始於信任。代理系統能夠自主規劃、決策與行動，意味著小規模的不一致、疏漏或安全缺口都可能導致重大後果與信任流失。

隨著這些系統與工具、API 及其他代理者深度整合，其行為變得越來越複雜，傷害發生的路徑也隨之複雜。代理行為所帶來的風險是系統性的，需要涵蓋整個系統堆疊的緩解策略。

透過在模型、安全系統、應用及定位層層間應用深度防禦，並善用 Microsoft 整合的安全與代理管理生態系統，組織能部署設計上具備自主性、可觀察性且具韌性的代理系統。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-19

安全的自主代理人工智慧系統

內容和問題

解決方案

緩解層內的控制措施

模型圖層控制

安全系統層控制

應用層控制

定位層控制

Microsoft 解決方案

主要控制平面

模型選擇與估值

安全系統與運行時間緩解措施

身份與資料保護

使用者體驗設計

偵測與應變（支援）

指導

結果

福利

取捨

關鍵成功因素

總結

意見反應

其他資源