Zabezpečení autonomních agentických systémů AI

Název pilíře: Monitorování a detekce hrozeb
Název vzoru: Zabezpečené systémy AI pro agenty


Kontext a problém

Autonomní systémy AI můžou plánovat, volat nástroje, přistupovat k datům a spouštět akce s omezeným zásahem člověka. S tím, jak se zvyšuje autonomie, narůstá také potenciální dopad nesouladu, zneužití a kompromitace.

Článek Doprovodné vzory a postupy Snížení rizika pro autonomní systémy umělé inteligence (AI) popisuje rizika týkající se návrhu, zabezpečení a správy, která jsou zaváděna agentickým chováním. Tento model se mění od identifikace rizik na snížení rizik a zaměřuje se na rozhodnutí o ovládacích prvcích a návrhu, která tato rizika v praxi zmírňují.

Řešení

Zabezpečení agentických systémů vyžaduje strategii hloubkové obrany , která předpokládá selhání v jednotlivých vrstvách a navrhuje systémy tak, aby žádné selhání nezpůsobilo nepřijatelné škody.

Ovládací prvky v rámci vrstev omezení rizik

Ovládací prvky vrstev modelu

Model funguje jako modul odůvodnění agenta a ovlivňuje, jak agent interpretuje instrukce, plány akcí a reaguje na nežádoucí vstupy. Různé modely nabízejí různé možnosti a bezpečnostní funkce, které ovlivňují výstupy a akce agenta. Výběr vhodného modelu pomáhá vyhnout se nesprávnému zarovnání, chybám a nebezpečným výsledkům.

Doporučené ovládací prvky:

  • Úmyslný výběr modelu: Zvolte modely, jejichž hloubka uvažování, chování při odmítnutí a vlastnosti používání nástrojů odpovídají autonomii a rizikovému profilu agenta. Zmírní nesprávné zarovnání úkolů a nebezpečné akce.
  • Správa dodavatelského řetězce modelu: Považujte modely za bezpečnostní závislosti sledováním verzí, kontrolou aktualizací a ověřováním změn před nasazením. Snižuje ohrožení dodavatelského řetězce.
  • Vyhodnocení a red teaming: Průběžně testujte modely pro agentní hrozby, jako je injekce napříč výzvami, narušení záměru a nebezpečný výběr nástrojů. Zmírňuje únos agenta a nezamýšlené akce.
  • Zarovnání schopností: Vyhněte se příliš schopným modelům, pokud jednodušší nebo více omezených modelů vyhovují potřebám systému. Omezuje nadměrnou autonomii a zvětšený rozsah dopadu.

Ovládací prvky bezpečnostní vrstvy systému

Vrstva bezpečnostního systému zachytí chyby za běhu, když agenti pracují s nedůvěryhodným obsahem, nástroji, rozhraními API a uživateli. Tyto záruky tvoří základní ochranu před provozními riziky, včetně napadení agentů, škodlivých výstupů, úniku citlivých dat a zneužití modulu runtime.

Doporučené ovládací prvky:

  • Filtrování vstupu a výstupu: Detekce a blokování škodlivých, manipulativních nebo nebezpečných vstupů a výstupů, včetně nepřímé injektáže výzvy. Snižuje riziko napadení agenta a únik citlivých dat.
  • Ochranné mantinely agenta: Zajistěte dodržování úkolů a zabraňte nebezpečnému vyvolání nástrojů mimo určený rozsah během provádění. Zmírní nezamýšlené akce a zneužití s vysokým dopadem.
  • Protokolování a pozorovatelnost: Zaznamenávání plánů agentů, volání nástrojů, rozhodnutí a výsledků za účelem podporu auditu, reakce na incidenty a vylepšení. Zmírní problémy se srozumitelností a nezjistitelné zneužití.
  • Detekce zneužití a anomálií: Monitorování opakovaných pokusů o obejití nebo neobvyklých vzorů chování Snižuje neustálý průzkum a nenápadnou exfiltraci.

Ovládací prvky aplikační vrstvy

Aplikační vrstva definuje, jak je agent navržen, jaké akce může provádět a jak se vynucují ovládací prvky. V tomto případě se z bezpečnostních principů stanou vynucovatelné chování systému.

Doporučené ovládací prvky:

  • Agenti jako mikroslužby: Navrhujte agenty, jako jsou mikroslužby s izolovanými oprávněními a úzce vymezeným přístupem k nástrojům. Snižuje nesprávné zarovnání, poloměr výbuchu a únik citlivých dat.
  • Explicitní schémata akcí: Definujte povolené akce, požadované vstupy, úrovně rizik, omezení provádění a požadavky na protokolování. Zmírní neúmyslné akce a nebezpečné vyvolání nástroje.
  • Deterministické člověk-v-smyčce (HITL): Prosazujte lidskou kontrolu u vysoce rizikových nebo nevratných akcí prostřednictvím logiky orchestrátoru místo rozhodování modelu. Zmírní mezery kontrolního dozoru a nesoulad.
  • Koncept minimálních oprávnění a minimálních akcí: Začněte bez povolených akcí jako výchozí nastavení a postupně povolujte funkce podle role a rizika. Přiřaďte každému agentu jedinečnou ověřitelnou identitu pro uplatnění řízení přístupu na základě role. Snižuje únik citlivých dat, nadměrnou expanzi agentů a nadbytečná oprávnění.
  • Systémové zprávy jako posily: Pomocí strukturovaných systémových instrukcí můžete posílit role a hranice, které jsou vždy podporovány deterministickými ovládacími prvky. Snižuje riziko napadení agenta a nesprávné zarovnání.

Ovládací prvky pro umístění vrstev

Umístění vrstvy tvaruje, jak lidé chápou, důvěřují a spoléhají na agentský systém. Špatné umístění může představovat riziko, i když jsou technické kontroly silné.

Doporučené ovládací prvky:

  • Jasné zveřejnění: Udělejte zřejmé, když uživatelé komunikují s autonomním AI agentem Zmírní problémy s transparentností a selhání při zveřejňování.
  • Transparentnost schopností: Informujte, co může a nemůže agent dělat, včetně omezení a nejistoty. Vyhněte se prezentování agentů jako autoritativních nebo neomylných. Snižuje nevhodné závislosti.
  • Hranice viditelné uživatelům: Zviditelněte plánované akce, schválení a výsledky, aby bylo uživatelům umožněno detekovat neobvyklé chování. Zmírní chyby srozumitelnosti.
  • Zabezpečené vzory uživatelského rozhraní: Ujistěte se, že mechanismy kontroly, schválení a vypnutí jsou přístupné a chráněné. Zmírní zneužití a spoléhání se na ně.

Řešení Microsoftu

Výše uvedené ovládací prvky popisují, co se má implementovat. Následující řešení Microsoft pomáhají implementovat tyto mitigace rizik napříč identitami, správou, vynucením za běhu a detekcí.

Primární řídicí vrstva

  • Microsoft Agent 365:
    • Poskytuje centralizovaný inventář, zásady správného řízení, hranice přístupu a viditelnost mezi agenty.
    • Podporuje: prevence nekontrolovaného rozrůstání agentů, princip minimálních oprávnění a strategické řízení. Podporuje: prevence rozrůstaní agentů, princip minimálních oprávnění, správa.

Výběr modelu a hodnocení

Zmírnění bezpečnostních systémů a modulů runtime

  • Microsoft Foundry (mantinely, filtry obsahu, monitorování zneužití)
    • Vynucuje dodržování úkolů, filtruje nedůvěryhodné vstupy a výstupy a zjišťuje vzory zneužití.
    • Podporuje: Zmírnění injektáže podnětu, prevence úniku.

Identita a ochrana dat

  • Microsoft Entra:

    • Poskytuje řízení přístupu na základě identity, podmíněného přístupu a řízení přístupu na základě role pro agenty.
    • Podporuje: nejnižší oprávnění, řízení přístupu.
  • Microsoft Purview:

    • Poskytuje klasifikaci dat, zásady správného řízení a vynucení zásad.
    • Podporuje: ochrana citlivých dat.

Návrh uživatelského prostředí

Detekce a odpověď (podpora)

  • Microsoft Defender a Microsoft Sentinel pro správu stavu zabezpečení, korelaci signálů a reakce na incidenty napříč úlohami agentů
  • Azure Monitor a Application Insights pro telemetrii a pozorovatelnost chování a výkon agenta

Pokyny

Organizace, které chtějí tento model přijmout, můžou použít následující použitelné postupy:

Kategorie praxe Doporučené akce zdroj
Zásady správného řízení pro nástroje, agenty a modely Onboarding agentů do Foundry pomocí podporovaných architektur nebo registrace vlastních agentů Řídicí rovina Microsoft Foundry
Bezpečnost obsahu a odolnost proti promptové injektáži Filtrování vstupů a výstupů; považovat načtený obsah za nedůvěryhodný; blokovat injektáž nepřímých výzev Filtrování obsahu Foundry a zobrazování výzev štítů
Dodržování úkolů a bezpečnost nástrojů Vynucení seznamů povolených nástrojů a deterministické ověřování Foundry Agent Guardrails
Red-teaming umělé inteligence Nepřetržitě testujte injektáž promptu, porušení záměru, nesprávný výběr nástroje a únik. Foundry AI Red Teaming Agent / PyRIT
Identita a přístup pro agenty Použití nejnižších oprávnění, podmíněného přístupu a zásad správného řízení životního cyklu Microsoft Entra
Zásady správného řízení a dodržování předpisů pro data Klasifikace a ochrana citlivých dat Microsoft Purview
Správa stavu Posouzení konfigurace a zranitelností Microsoft Defender for Cloud
Zjišťování zneužití Korelace protokolů a trasování Microsoft Sentinel

Výsledky

Výhody

  • Agenti pracují v rámci definovaného záměru, oprávnění a hranic.
  • Vysoce rizikové akce vyžadují deterministické lidské schválení.
  • Chování agenta je pozorovatelné, auditovatelné a říditelné ve velkém měřítku.
  • Vystavení citlivých dat se snižuje prostřednictvím nejnižších oprávnění a vynucení zásad.
  • Organizace si zachovají viditelnost a kontrolu nad tím, jak roste využití agentů.
  • Důvěryhodnost je vytvořená prostřednictvím transparentnosti, odpovědnosti a předvídatelných chování.

Kompromisy

  • K implementaci vrstvených ovládacích prvků je potřeba další technické úsilí.
  • Autonomní systémy představují architekturu a provozní složitost.
  • Lidský dohled přidává tření do vysoce rizikových pracovních postupů.
  • Zásady správného řízení a pozorovatelnost vyžadují trvalé provozní investice.

Klíčové faktory úspěchu

  • Dodržování úkolů
  • Lidské zapojení
  • Deterministické záruky
  • Transparentnost a zveřejnění
  • Odolnost proti únosu
  • Nejnižší privilegium a řízení
  • Povědomí o dodavatelském řetězci

Shrnutí

Odemknutí lidského potenciálu začíná důvěrou. Schopnost agentských systémů plánovat, rozhodovat a jednat samostatně znamená, že malé nedostatky, dohledy nebo mezery v oblasti zabezpečení můžou vést k významným důsledkům a ztrátě důvěry.

S tím, jak se tyto systémy hlouběji integrují s nástroji, rozhraními API a dalšími agenty, se jejich chování stává stále složitějším – a tak i cesty, kterými může dojít k poškození. Rizika spojená s chováním agentů jsou systémová a vyžadují strategie zmírnění rizik, které pokrývají celý systémový zásobník.

Použitím hloubkové ochrany napříč modelem, bezpečnostním systémem, aplikacemi a vrstvami umístění a využitím integrovaného ekosystému zabezpečení a správy agentů Microsoftu můžou organizace nasazovat agentské systémy, které jsou autonomní, pozorovatelné a odolné návrhem.