Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Název pilíře: Monitorování a detekce hrozeb
Název vzoru: Zabezpečené systémy AI pro agenty
Kontext a problém
Autonomní systémy AI můžou plánovat, volat nástroje, přistupovat k datům a spouštět akce s omezeným zásahem člověka. S tím, jak se zvyšuje autonomie, narůstá také potenciální dopad nesouladu, zneužití a kompromitace.
Článek Doprovodné vzory a postupy Snížení rizika pro autonomní systémy umělé inteligence (AI) popisuje rizika týkající se návrhu, zabezpečení a správy, která jsou zaváděna agentickým chováním. Tento model se mění od identifikace rizik na snížení rizik a zaměřuje se na rozhodnutí o ovládacích prvcích a návrhu, která tato rizika v praxi zmírňují.
Řešení
Zabezpečení agentických systémů vyžaduje strategii hloubkové obrany , která předpokládá selhání v jednotlivých vrstvách a navrhuje systémy tak, aby žádné selhání nezpůsobilo nepřijatelné škody.
Ovládací prvky v rámci vrstev omezení rizik
Ovládací prvky vrstev modelu
Model funguje jako modul odůvodnění agenta a ovlivňuje, jak agent interpretuje instrukce, plány akcí a reaguje na nežádoucí vstupy. Různé modely nabízejí různé možnosti a bezpečnostní funkce, které ovlivňují výstupy a akce agenta. Výběr vhodného modelu pomáhá vyhnout se nesprávnému zarovnání, chybám a nebezpečným výsledkům.
Doporučené ovládací prvky:
- Úmyslný výběr modelu: Zvolte modely, jejichž hloubka uvažování, chování při odmítnutí a vlastnosti používání nástrojů odpovídají autonomii a rizikovému profilu agenta. Zmírní nesprávné zarovnání úkolů a nebezpečné akce.
- Správa dodavatelského řetězce modelu: Považujte modely za bezpečnostní závislosti sledováním verzí, kontrolou aktualizací a ověřováním změn před nasazením. Snižuje ohrožení dodavatelského řetězce.
- Vyhodnocení a red teaming: Průběžně testujte modely pro agentní hrozby, jako je injekce napříč výzvami, narušení záměru a nebezpečný výběr nástrojů. Zmírňuje únos agenta a nezamýšlené akce.
- Zarovnání schopností: Vyhněte se příliš schopným modelům, pokud jednodušší nebo více omezených modelů vyhovují potřebám systému. Omezuje nadměrnou autonomii a zvětšený rozsah dopadu.
Ovládací prvky bezpečnostní vrstvy systému
Vrstva bezpečnostního systému zachytí chyby za běhu, když agenti pracují s nedůvěryhodným obsahem, nástroji, rozhraními API a uživateli. Tyto záruky tvoří základní ochranu před provozními riziky, včetně napadení agentů, škodlivých výstupů, úniku citlivých dat a zneužití modulu runtime.
Doporučené ovládací prvky:
- Filtrování vstupu a výstupu: Detekce a blokování škodlivých, manipulativních nebo nebezpečných vstupů a výstupů, včetně nepřímé injektáže výzvy. Snižuje riziko napadení agenta a únik citlivých dat.
- Ochranné mantinely agenta: Zajistěte dodržování úkolů a zabraňte nebezpečnému vyvolání nástrojů mimo určený rozsah během provádění. Zmírní nezamýšlené akce a zneužití s vysokým dopadem.
- Protokolování a pozorovatelnost: Zaznamenávání plánů agentů, volání nástrojů, rozhodnutí a výsledků za účelem podporu auditu, reakce na incidenty a vylepšení. Zmírní problémy se srozumitelností a nezjistitelné zneužití.
- Detekce zneužití a anomálií: Monitorování opakovaných pokusů o obejití nebo neobvyklých vzorů chování Snižuje neustálý průzkum a nenápadnou exfiltraci.
Ovládací prvky aplikační vrstvy
Aplikační vrstva definuje, jak je agent navržen, jaké akce může provádět a jak se vynucují ovládací prvky. V tomto případě se z bezpečnostních principů stanou vynucovatelné chování systému.
Doporučené ovládací prvky:
- Agenti jako mikroslužby: Navrhujte agenty, jako jsou mikroslužby s izolovanými oprávněními a úzce vymezeným přístupem k nástrojům. Snižuje nesprávné zarovnání, poloměr výbuchu a únik citlivých dat.
- Explicitní schémata akcí: Definujte povolené akce, požadované vstupy, úrovně rizik, omezení provádění a požadavky na protokolování. Zmírní neúmyslné akce a nebezpečné vyvolání nástroje.
- Deterministické člověk-v-smyčce (HITL): Prosazujte lidskou kontrolu u vysoce rizikových nebo nevratných akcí prostřednictvím logiky orchestrátoru místo rozhodování modelu. Zmírní mezery kontrolního dozoru a nesoulad.
- Koncept minimálních oprávnění a minimálních akcí: Začněte bez povolených akcí jako výchozí nastavení a postupně povolujte funkce podle role a rizika. Přiřaďte každému agentu jedinečnou ověřitelnou identitu pro uplatnění řízení přístupu na základě role. Snižuje únik citlivých dat, nadměrnou expanzi agentů a nadbytečná oprávnění.
- Systémové zprávy jako posily: Pomocí strukturovaných systémových instrukcí můžete posílit role a hranice, které jsou vždy podporovány deterministickými ovládacími prvky. Snižuje riziko napadení agenta a nesprávné zarovnání.
Ovládací prvky pro umístění vrstev
Umístění vrstvy tvaruje, jak lidé chápou, důvěřují a spoléhají na agentský systém. Špatné umístění může představovat riziko, i když jsou technické kontroly silné.
Doporučené ovládací prvky:
- Jasné zveřejnění: Udělejte zřejmé, když uživatelé komunikují s autonomním AI agentem Zmírní problémy s transparentností a selhání při zveřejňování.
- Transparentnost schopností: Informujte, co může a nemůže agent dělat, včetně omezení a nejistoty. Vyhněte se prezentování agentů jako autoritativních nebo neomylných. Snižuje nevhodné závislosti.
- Hranice viditelné uživatelům: Zviditelněte plánované akce, schválení a výsledky, aby bylo uživatelům umožněno detekovat neobvyklé chování. Zmírní chyby srozumitelnosti.
- Zabezpečené vzory uživatelského rozhraní: Ujistěte se, že mechanismy kontroly, schválení a vypnutí jsou přístupné a chráněné. Zmírní zneužití a spoléhání se na ně.
Řešení Microsoftu
Výše uvedené ovládací prvky popisují, co se má implementovat. Následující řešení Microsoft pomáhají implementovat tyto mitigace rizik napříč identitami, správou, vynucením za běhu a detekcí.
Primární řídicí vrstva
-
Microsoft Agent 365:
- Poskytuje centralizovaný inventář, zásady správného řízení, hranice přístupu a viditelnost mezi agenty.
- Podporuje: prevence nekontrolovaného rozrůstání agentů, princip minimálních oprávnění a strategické řízení. Podporuje: prevence rozrůstaní agentů, princip minimálních oprávnění, správa.
Výběr modelu a hodnocení
- Katalog modelů společnosti Microsoft Foundry k vyhodnocení a výběru modelů vhodných pro daný případ použití, včetně základních úrovní bezpečnosti a zabezpečení.
- Microsoft Foundry je agent AI Red Teaming Agent a Python Risk Identification Tool (PyRIT) pro červené týmy a průběžné hodnocení.
Zmírnění bezpečnostních systémů a modulů runtime
-
Microsoft Foundry (mantinely, filtry obsahu, monitorování zneužití)
- Vynucuje dodržování úkolů, filtruje nedůvěryhodné vstupy a výstupy a zjišťuje vzory zneužití.
- Podporuje: Zmírnění injektáže podnětu, prevence úniku.
Identita a ochrana dat
Microsoft Entra:
- Poskytuje řízení přístupu na základě identity, podmíněného přístupu a řízení přístupu na základě role pro agenty.
- Podporuje: nejnižší oprávnění, řízení přístupu.
Microsoft Purview:
- Poskytuje klasifikaci dat, zásady správného řízení a vynucení zásad.
- Podporuje: ochrana citlivých dat.
Návrh uživatelského prostředí
- Sada nástrojů HAX (Human AI Interaction) pro zpřístupnění a vzory uživatelského rozhraní zaměřené na člověka
- UX sada nástrojů s integrovaným zabezpečením pro zabezpečené vzory uživatelského rozhraní
Detekce a odpověď (podpora)
- Microsoft Defender a Microsoft Sentinel pro správu stavu zabezpečení, korelaci signálů a reakce na incidenty napříč úlohami agentů
- Azure Monitor a Application Insights pro telemetrii a pozorovatelnost chování a výkon agenta
Pokyny
Organizace, které chtějí tento model přijmout, můžou použít následující použitelné postupy:
| Kategorie praxe | Doporučené akce | zdroj |
|---|---|---|
| Zásady správného řízení pro nástroje, agenty a modely | Onboarding agentů do Foundry pomocí podporovaných architektur nebo registrace vlastních agentů | Řídicí rovina Microsoft Foundry |
| Bezpečnost obsahu a odolnost proti promptové injektáži | Filtrování vstupů a výstupů; považovat načtený obsah za nedůvěryhodný; blokovat injektáž nepřímých výzev | Filtrování obsahu Foundry a zobrazování výzev štítů |
| Dodržování úkolů a bezpečnost nástrojů | Vynucení seznamů povolených nástrojů a deterministické ověřování | Foundry Agent Guardrails |
| Red-teaming umělé inteligence | Nepřetržitě testujte injektáž promptu, porušení záměru, nesprávný výběr nástroje a únik. | Foundry AI Red Teaming Agent / PyRIT |
| Identita a přístup pro agenty | Použití nejnižších oprávnění, podmíněného přístupu a zásad správného řízení životního cyklu | Microsoft Entra |
| Zásady správného řízení a dodržování předpisů pro data | Klasifikace a ochrana citlivých dat | Microsoft Purview |
| Správa stavu | Posouzení konfigurace a zranitelností | Microsoft Defender for Cloud |
| Zjišťování zneužití | Korelace protokolů a trasování | Microsoft Sentinel |
Výsledky
Výhody
- Agenti pracují v rámci definovaného záměru, oprávnění a hranic.
- Vysoce rizikové akce vyžadují deterministické lidské schválení.
- Chování agenta je pozorovatelné, auditovatelné a říditelné ve velkém měřítku.
- Vystavení citlivých dat se snižuje prostřednictvím nejnižších oprávnění a vynucení zásad.
- Organizace si zachovají viditelnost a kontrolu nad tím, jak roste využití agentů.
- Důvěryhodnost je vytvořená prostřednictvím transparentnosti, odpovědnosti a předvídatelných chování.
Kompromisy
- K implementaci vrstvených ovládacích prvků je potřeba další technické úsilí.
- Autonomní systémy představují architekturu a provozní složitost.
- Lidský dohled přidává tření do vysoce rizikových pracovních postupů.
- Zásady správného řízení a pozorovatelnost vyžadují trvalé provozní investice.
Klíčové faktory úspěchu
- Dodržování úkolů
- Lidské zapojení
- Deterministické záruky
- Transparentnost a zveřejnění
- Odolnost proti únosu
- Nejnižší privilegium a řízení
- Povědomí o dodavatelském řetězci
Shrnutí
Odemknutí lidského potenciálu začíná důvěrou. Schopnost agentských systémů plánovat, rozhodovat a jednat samostatně znamená, že malé nedostatky, dohledy nebo mezery v oblasti zabezpečení můžou vést k významným důsledkům a ztrátě důvěry.
S tím, jak se tyto systémy hlouběji integrují s nástroji, rozhraními API a dalšími agenty, se jejich chování stává stále složitějším – a tak i cesty, kterými může dojít k poškození. Rizika spojená s chováním agentů jsou systémová a vyžadují strategie zmírnění rizik, které pokrývají celý systémový zásobník.
Použitím hloubkové ochrany napříč modelem, bezpečnostním systémem, aplikacemi a vrstvami umístění a využitím integrovaného ekosystému zabezpečení a správy agentů Microsoftu můžou organizace nasazovat agentské systémy, které jsou autonomní, pozorovatelné a odolné návrhem.