Zabezpečení autonomních agentických systémů AI

Název pilíře: Monitorování a detekce hrozeb
Název vzoru: Zabezpečené systémy AI pro agenty

Kontext a problém

Autonomní systémy AI můžou plánovat, volat nástroje, přistupovat k datům a spouštět akce s omezeným zásahem člověka. S tím, jak se zvyšuje autonomie, narůstá také potenciální dopad nesouladu, zneužití a kompromitace.

Článek Doprovodné vzory a postupy Snížení rizika pro autonomní systémy umělé inteligence (AI) popisuje rizika týkající se návrhu, zabezpečení a správy, která jsou zaváděna agentickým chováním. Tento model se mění od identifikace rizik na snížení rizik a zaměřuje se na rozhodnutí o ovládacích prvcích a návrhu, která tato rizika v praxi zmírňují.

Řešení

Zabezpečení agentických systémů vyžaduje strategii hloubkové obrany , která předpokládá selhání v jednotlivých vrstvách a navrhuje systémy tak, aby žádné selhání nezpůsobilo nepřijatelné škody.

Ovládací prvky v rámci vrstev omezení rizik

Ovládací prvky vrstev modelu

Model funguje jako modul odůvodnění agenta a ovlivňuje, jak agent interpretuje instrukce, plány akcí a reaguje na nežádoucí vstupy. Různé modely nabízejí různé možnosti a bezpečnostní funkce, které ovlivňují výstupy a akce agenta. Výběr vhodného modelu pomáhá vyhnout se nesprávnému zarovnání, chybám a nebezpečným výsledkům.

Doporučené ovládací prvky:

Úmyslný výběr modelu: Zvolte modely, jejichž hloubka uvažování, chování při odmítnutí a vlastnosti používání nástrojů odpovídají autonomii a rizikovému profilu agenta. Zmírní nesprávné zarovnání úkolů a nebezpečné akce.
Správa dodavatelského řetězce modelu: Považujte modely za bezpečnostní závislosti sledováním verzí, kontrolou aktualizací a ověřováním změn před nasazením. Snižuje ohrožení dodavatelského řetězce.
Vyhodnocení a red teaming: Průběžně testujte modely pro agentní hrozby, jako je injekce napříč výzvami, narušení záměru a nebezpečný výběr nástrojů. Zmírňuje únos agenta a nezamýšlené akce.
Zarovnání schopností: Vyhněte se příliš schopným modelům, pokud jednodušší nebo více omezených modelů vyhovují potřebám systému. Omezuje nadměrnou autonomii a zvětšený rozsah dopadu.

Ovládací prvky bezpečnostní vrstvy systému

Vrstva bezpečnostního systému zachytí chyby za běhu, když agenti pracují s nedůvěryhodným obsahem, nástroji, rozhraními API a uživateli. Tyto záruky tvoří základní ochranu před provozními riziky, včetně napadení agentů, škodlivých výstupů, úniku citlivých dat a zneužití modulu runtime.

Doporučené ovládací prvky:

Filtrování vstupu a výstupu: Detekce a blokování škodlivých, manipulativních nebo nebezpečných vstupů a výstupů, včetně nepřímé injektáže výzvy. Snižuje riziko napadení agenta a únik citlivých dat.
Ochranné mantinely agenta: Zajistěte dodržování úkolů a zabraňte nebezpečnému vyvolání nástrojů mimo určený rozsah během provádění. Zmírní nezamýšlené akce a zneužití s vysokým dopadem.
Protokolování a pozorovatelnost: Zaznamenávání plánů agentů, volání nástrojů, rozhodnutí a výsledků za účelem podporu auditu, reakce na incidenty a vylepšení. Zmírní problémy se srozumitelností a nezjistitelné zneužití.
Detekce zneužití a anomálií: Monitorování opakovaných pokusů o obejití nebo neobvyklých vzorů chování Snižuje neustálý průzkum a nenápadnou exfiltraci.

Ovládací prvky aplikační vrstvy

Aplikační vrstva definuje, jak je agent navržen, jaké akce může provádět a jak se vynucují ovládací prvky. V tomto případě se z bezpečnostních principů stanou vynucovatelné chování systému.

Doporučené ovládací prvky:

Agenti jako mikroslužby: Navrhujte agenty, jako jsou mikroslužby s izolovanými oprávněními a úzce vymezeným přístupem k nástrojům. Snižuje nesprávné zarovnání, poloměr výbuchu a únik citlivých dat.
Explicitní schémata akcí: Definujte povolené akce, požadované vstupy, úrovně rizik, omezení provádění a požadavky na protokolování. Zmírní neúmyslné akce a nebezpečné vyvolání nástroje.
Deterministické člověk-v-smyčce (HITL): Prosazujte lidskou kontrolu u vysoce rizikových nebo nevratných akcí prostřednictvím logiky orchestrátoru místo rozhodování modelu. Zmírní mezery kontrolního dozoru a nesoulad.
Koncept minimálních oprávnění a minimálních akcí: Začněte bez povolených akcí jako výchozí nastavení a postupně povolujte funkce podle role a rizika. Přiřaďte každému agentu jedinečnou ověřitelnou identitu pro uplatnění řízení přístupu na základě role. Snižuje únik citlivých dat, nadměrnou expanzi agentů a nadbytečná oprávnění.
Systémové zprávy jako posily: Pomocí strukturovaných systémových instrukcí můžete posílit role a hranice, které jsou vždy podporovány deterministickými ovládacími prvky. Snižuje riziko napadení agenta a nesprávné zarovnání.

Ovládací prvky pro umístění vrstev

Umístění vrstvy tvaruje, jak lidé chápou, důvěřují a spoléhají na agentský systém. Špatné umístění může představovat riziko, i když jsou technické kontroly silné.

Doporučené ovládací prvky:

Jasné zveřejnění: Udělejte zřejmé, když uživatelé komunikují s autonomním AI agentem Zmírní problémy s transparentností a selhání při zveřejňování.
Transparentnost schopností: Informujte, co může a nemůže agent dělat, včetně omezení a nejistoty. Vyhněte se prezentování agentů jako autoritativních nebo neomylných. Snižuje nevhodné závislosti.
Hranice viditelné uživatelům: Zviditelněte plánované akce, schválení a výsledky, aby bylo uživatelům umožněno detekovat neobvyklé chování. Zmírní chyby srozumitelnosti.
Zabezpečené vzory uživatelského rozhraní: Ujistěte se, že mechanismy kontroly, schválení a vypnutí jsou přístupné a chráněné. Zmírní zneužití a spoléhání se na ně.

Řešení Microsoftu

Výše uvedené ovládací prvky popisují, co se má implementovat. Následující řešení Microsoft pomáhají implementovat tyto mitigace rizik napříč identitami, správou, vynucením za běhu a detekcí.

Primární řídicí vrstva

Microsoft Agent 365:
- Poskytuje centralizovaný inventář, zásady správného řízení, hranice přístupu a viditelnost mezi agenty.
- Podporuje: prevence nekontrolovaného rozrůstání agentů, princip minimálních oprávnění a strategické řízení. Podporuje: prevence rozrůstaní agentů, princip minimálních oprávnění, správa.

Výběr modelu a hodnocení

Katalog modelů společnosti Microsoft Foundry k vyhodnocení a výběru modelů vhodných pro daný případ použití, včetně základních úrovní bezpečnosti a zabezpečení.
Microsoft Foundry je agent AI Red Teaming Agent a Python Risk Identification Tool (PyRIT) pro červené týmy a průběžné hodnocení.

Zmírnění bezpečnostních systémů a modulů runtime

Microsoft Foundry (mantinely, filtry obsahu, monitorování zneužití)
- Vynucuje dodržování úkolů, filtruje nedůvěryhodné vstupy a výstupy a zjišťuje vzory zneužití.
- Podporuje: Zmírnění injektáže podnětu, prevence úniku.

Identita a ochrana dat

Microsoft Entra:
- Poskytuje řízení přístupu na základě identity, podmíněného přístupu a řízení přístupu na základě role pro agenty.
- Podporuje: nejnižší oprávnění, řízení přístupu.
Microsoft Purview:
- Poskytuje klasifikaci dat, zásady správného řízení a vynucení zásad.
- Podporuje: ochrana citlivých dat.

Návrh uživatelského prostředí

Sada nástrojů HAX (Human AI Interaction) pro zpřístupnění a vzory uživatelského rozhraní zaměřené na člověka
UX sada nástrojů s integrovaným zabezpečením pro zabezpečené vzory uživatelského rozhraní

Detekce a odpověď (podpora)

Microsoft Defender a Microsoft Sentinel pro správu stavu zabezpečení, korelaci signálů a reakce na incidenty napříč úlohami agentů
Azure Monitor a Application Insights pro telemetrii a pozorovatelnost chování a výkon agenta

Pokyny

Organizace, které chtějí tento model přijmout, můžou použít následující použitelné postupy:

Kategorie praxe	Doporučené akce	zdroj
Zásady správného řízení pro nástroje, agenty a modely	Onboarding agentů do Foundry pomocí podporovaných architektur nebo registrace vlastních agentů	Řídicí rovina Microsoft Foundry
Bezpečnost obsahu a odolnost proti promptové injektáži	Filtrování vstupů a výstupů; považovat načtený obsah za nedůvěryhodný; blokovat injektáž nepřímých výzev	Filtrování obsahu Foundry a zobrazování výzev štítů
Dodržování úkolů a bezpečnost nástrojů	Vynucení seznamů povolených nástrojů a deterministické ověřování	Foundry Agent Guardrails
Red-teaming umělé inteligence	Nepřetržitě testujte injektáž promptu, porušení záměru, nesprávný výběr nástroje a únik.	Foundry AI Red Teaming Agent / PyRIT
Identita a přístup pro agenty	Použití nejnižších oprávnění, podmíněného přístupu a zásad správného řízení životního cyklu	Microsoft Entra
Zásady správného řízení a dodržování předpisů pro data	Klasifikace a ochrana citlivých dat	Microsoft Purview
Správa stavu	Posouzení konfigurace a zranitelností	Microsoft Defender for Cloud
Zjišťování zneužití	Korelace protokolů a trasování	Microsoft Sentinel

Výsledky

Výhody

Agenti pracují v rámci definovaného záměru, oprávnění a hranic.
Vysoce rizikové akce vyžadují deterministické lidské schválení.
Chování agenta je pozorovatelné, auditovatelné a říditelné ve velkém měřítku.
Vystavení citlivých dat se snižuje prostřednictvím nejnižších oprávnění a vynucení zásad.
Organizace si zachovají viditelnost a kontrolu nad tím, jak roste využití agentů.
Důvěryhodnost je vytvořená prostřednictvím transparentnosti, odpovědnosti a předvídatelných chování.

Kompromisy

K implementaci vrstvených ovládacích prvků je potřeba další technické úsilí.
Autonomní systémy představují architekturu a provozní složitost.
Lidský dohled přidává tření do vysoce rizikových pracovních postupů.
Zásady správného řízení a pozorovatelnost vyžadují trvalé provozní investice.

Klíčové faktory úspěchu

Dodržování úkolů
Lidské zapojení
Deterministické záruky
Transparentnost a zveřejnění
Odolnost proti únosu
Nejnižší privilegium a řízení
Povědomí o dodavatelském řetězci

Shrnutí

Odemknutí lidského potenciálu začíná důvěrou. Schopnost agentských systémů plánovat, rozhodovat a jednat samostatně znamená, že malé nedostatky, dohledy nebo mezery v oblasti zabezpečení můžou vést k významným důsledkům a ztrátě důvěry.

S tím, jak se tyto systémy hlouběji integrují s nástroji, rozhraními API a dalšími agenty, se jejich chování stává stále složitějším – a tak i cesty, kterými může dojít k poškození. Rizika spojená s chováním agentů jsou systémová a vyžadují strategie zmírnění rizik, které pokrývají celý systémový zásobník.

Použitím hloubkové ochrany napříč modelem, bezpečnostním systémem, aplikacemi a vrstvami umístění a využitím integrovaného ekosystému zabezpečení a správy agentů Microsoftu můžou organizace nasazovat agentské systémy, které jsou autonomní, pozorovatelné a odolné návrhem.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-03-19

Zabezpečení autonomních agentických systémů AI

Kontext a problém

Řešení

Ovládací prvky v rámci vrstev omezení rizik

Ovládací prvky vrstev modelu

Ovládací prvky bezpečnostní vrstvy systému

Ovládací prvky aplikační vrstvy

Ovládací prvky pro umístění vrstev

Řešení Microsoftu

Primární řídicí vrstva

Výběr modelu a hodnocení

Zmírnění bezpečnostních systémů a modulů runtime

Identita a ochrana dat

Návrh uživatelského prostředí

Detekce a odpověď (podpora)

Pokyny

Výsledky

Výhody

Kompromisy

Klíčové faktory úspěchu

Shrnutí

Váš názor

Další materiály