Autonóm ügynöki AI-rendszerek biztonságossá tétele

Pillér neve: Fenyegetések figyelése és észlelése
Minta neve: Biztonságos ügynöki AI-rendszerek


Kontextus és probléma

Az autonóm ügynöki AI-rendszerek korlátozott emberi beavatkozással tervezhetnek, hívhatnak meg eszközöket, hozzáférhetnek az adatokhoz, és műveleteket hajthatnak végre. Ahogy nő az autonómia, úgy nő az össze nem illeszkedés, a visszaélés és a sérülés lehetséges hatása is.

Az autonóm ügynöki AI-rendszerek kockázatának csökkentése című társminták és eljárások című cikk ismerteti az ügynöki viselkedés által bevezetett tervezési, biztonsági és szabályozási kockázatokat. Ez a minta a kockázatazonosításról a kockázatcsökkentésre vált, és azokat az ellenőrzéseket és tervezési döntéseket helyezi előtérbe, amelyek a gyakorlatban mérsékelik ezeket a kockázatokat.

Megoldás

Az ügynökrendszerek biztonságossá tétele olyan részletes védelmi stratégiát igényel, amely az egyes rétegek meghibásodását feltételezi, és rendszereket tervez, így egyetlen meghibásodás sem okoz elfogadhatatlan károkat.

A kockázatcsökkentési rétegeken belüli vezérlők

Modellréteg-vezérlők

A modell az ügynök érvelési motorjaként működik, és befolyásolja, hogy az ügynök hogyan értelmezi az utasításokat, hogyan tervezi meg a műveleteket, és hogyan reagál a támadó bemenetekre. A különböző modellek különböző képességeket és biztonsági funkciókat kínálnak, amelyek befolyásolják az ügynök kimeneteit és műveleteit. A megfelelő modell kiválasztása segít elkerülni a helytelenül történő eligazodást, a hibákat és a nem biztonságos eredményeket.

Ajánlott vezérlők:

  • Szándékos modellválasztás: Válassza ki azokat a modelleket, amelyek érvelési mélysége, elutasítási viselkedése és eszközhasználati jellemzői megfelelnek az ügynök autonómiájának és kockázati profiljának. Csökkenti a feladatok hibás összehangolását és a nem biztonságos műveleteket.
  • Modell ellátási láncának szabályozása: A modellek biztonsági függőségekként való kezelése a verziók nyomon követésével, a frissítések áttekintésével és a módosítások üzembe helyezés előtti érvényesítésével. Csökkenti az ellátási lánc sérülését.
  • Értékelés és piros összevonás: Folyamatosan tesztelje a modelleket olyan ügynöki fenyegetések esetén, mint a kereszt-parancssori injektálás, a szándéktörés és a nem biztonságos eszközök kiválasztása. Csökkenti az ügynökök eltérítését és a nem szándékos műveleteket.
  • Képesség igazítása: Kerülje a túl alkalmas modelleket, ha az egyszerűbb vagy korlátozottabb modellek megfelelnek a rendszer igényeinek. Mérsékli a túlzott önállóságot és a megnövekedett robbanási sugárterületet.

Biztonsági rendszerréteg-vezérlők

A biztonsági rendszer rétege futásidőben észleli a hibákat, amikor az ügynökök nem megbízható tartalommal, eszközökkel, API-kkal és felhasználókkal kommunikálnak. Ezek a biztosítékok alapvető védelmet jelentenek a működési kockázatokkal szemben, beleértve az ügynökök eltérítését, a káros kimeneteket, a bizalmas adatszivárgást és a futtatókörnyezettel való visszaélést.

Ajánlott vezérlők:

  • Bemeneti és kimeneti szűrés: Rosszindulatú, manipulatív vagy nem biztonságos bemenetek és kimenetek észlelése és letiltása, beleértve a közvetett parancssori injektálást is. Csökkenti az ügynökök eltérítését és a bizalmas adatszivárgást.
  • Ügynök védőkorlátok: Biztosítja a feladatok betartását, és megakadályozza a nem megfelelő hatókörű vagy nem biztonságos eszközhívásokat a végrehajtás során. Enyhíti a nem szándékos műveleteket és a nagy hatású visszaéléseket.
  • Naplózás és megfigyelhetőség: Rögzítse az ügynökterveket, az eszközhívásokat, a döntéseket és az eredményeket, hogy támogassa az auditálást, az incidenskezelést és a fejlesztést. Csökkenti az érthetőség hibáit és a nem észlelt visszaéléseket.
  • Visszaélés és anomáliadetektálás: Monitorozza az ismétlődő megkerülési kísérleteket vagy rendellenes viselkedési mintákat. Csökkenti a folyamatos szondázást és a lopakodó adatszivárgást.

Alkalmazásréteg-vezérlők

Az alkalmazásréteg határozza meg az ügynök kialakításának módját, az általa végrehajtható műveleteket és a vezérlők kikényszerítésének módját. Itt válnak érvényesíthetővé a biztonsági alapelvek a rendszer viselkedésében.

Ajánlott vezérlők:

  • Ügynökök mikroszolgáltatásként: Tervezzen ügynököket, például izolált engedélyekkel rendelkező mikroszolgáltatásokat és szűk hatókörű eszközhozzáférést. Mérsékli az elhajlást, a hatászónát és az érzékeny adatszivárgást.
  • Explicit műveleti sémák: Definiálja az engedélyezett műveleteket, a szükséges bemeneteket, a kockázati szinteket, a végrehajtási korlátozásokat és a naplózási követelményeket. Enyhíti a nem szándékos műveleteket és a nem biztonságos eszközhívásokat.
  • Determinisztikus human-in-the-loop (HITL): Az emberi felülvizsgálat biztosítása magas kockázatú vagy visszafordíthatatlan műveletekhez vezérlési logikával a modell érvelése helyett. Csökkenti a felügyeleti ellenőrzési hiányosságokat és az összehangolatlanságot.
  • Minimális jogosultság és legkisebb műveletterv: Alapértelmezés szerint ne legyen engedélyezett művelet, és a szerepkör és a kockázat alapján növekményesen engedélyezze a képességeket. Rendeljen minden ügynökhöz egy egyedi, ellenőrizhető identitást az RBAC alkalmazásához. Enyhíti a bizalmas adatszivárgást, az ügynökök beszivárgását és a túlengedélyezést.
  • Rendszerüzenetek megerősítésként: Strukturált rendszerutasításokkal erősítheti a szerepköröket és a határokat, amelyeket mindig determinisztikus vezérlők támogatnak. Enyhíti az ügynökeltérítést és a helytelenül történő értékesítést.

Rétegvezérlők elhelyezése

A helymeghatározó réteg formálja azt, ahogyan az emberek értelmezik, bíznak meg benne és támaszkodnak egy önrendelkezési rendszerre. A rossz elhelyezés akkor is kockázatot jelenthet, ha a műszaki vezérlők erősek.

Ajánlott vezérlők:

  • Egyértelmű közzététel: Explicitté teheti, ha a felhasználók önvezető AI-ügynökkel kommunikálnak. Csökkenti az átláthatóságot és a közzétételi hibákat.
  • Képesség áttetszősége: Közölje, hogy az ügynök mit tehet és mit nem, beleértve a korlátozásokat és a bizonytalanságot. Kerülje az ügynökök mérvadóként vagy tévedhetetlenként való elhelyezését. Csökkenti a nem megfelelő támaszkodást.
  • Felhasználó által látható határok: Tervezett műveletek, jóváhagyások és eredmények felszínre hozása, hogy a felhasználók észlelni tudják a rendellenes viselkedést. Csökkenti az érthetőség hibáit.
  • Biztonságos UX-minták: Győződjön meg arról, hogy a felülvizsgálati, jóváhagyási és leállítási mechanizmusok elérhetők és védettek. Csökkenti a visszaéléseket és a túlzott támaszkodást.

Microsoft-megoldások

A fenti vezérlők ismertetik, hogy mit kell implementálni. Az alábbi Microsoft megoldások segítenek ezeknek az enyhítéseknek a működtetésében az identitáskezelés, a szabályozás, a futási környezetbeli végrehajtás és az észlelés területén.

Elsődleges vezérlősík

  • Microsoft Agent 365:
    • Központosított leltárt, szabályozást, hozzáférési határokat és ügynökközi láthatóságot biztosít.
    • Támogatja a következőket: az ügynökök terjedésének megelőzése, a legkisebb jogosultság elve és a kormányzás. Támogatja: ügynök elterjedésének megelőzését, legkisebb privilegium, szabályozás.

Modell kiválasztása és kiértékelése

Biztonsági rendszer és futásidejű kockázatcsökkentések

  • Microsoft Foundry (védőkorlátok, tartalomszűrők, visszaélések monitorozása)
    • Kényszeríti a tevékenységek betartását, szűri a nem megbízható bemeneteket és kimeneteket, és észleli a visszaélési mintákat.
    • Támogatja: Gyors injektálási kockázatcsökkentés, szivárgás megelőzése.

Identitás és adatvédelem

  • Microsoft Entra:

    • Identitást, feltételes hozzáférést és szerepköralapú hozzáférés-vezérlést biztosít az ügynökök számára.
    • Támogatja a következőt: minimális jogosultság, hozzáférés-vezérlés.
  • Microsoft Purview:

    • Adatbesorolást, szabályozást és szabályzatkényszerítést biztosít.
    • Támogatja a bizalmas adatok védelmét.

UX-kialakítás

Észlelés és válasz (támogatás)

  • A Microsoft Defender és a Microsoft Sentinel a biztonsági helyzet kezelésére, jelkorrelációra, és incidensek kezelésére az ügynökökre vonatkozó számítási feladatok során.
  • Az Azure Monitor és Application Insights telemetriához és megfigyelhetőséghez az ügynök viselkedése és teljesítménye érdekében.

Útmutatás

Az ezt a mintát alkalmazni kívánó szervezetek a következő végrehajtható eljárásokat alkalmazhatják:

Gyakorlat kategóriája Javasolt műveletek erőforrás
Eszközök, ügynökök és modellek szabályozása Ügynökök előkészítése az Foundrybe támogatott keretrendszerek használatával vagy egyéni ügynökök regisztrálása Microsoft Foundry vezérlősík
Tartalombiztonság és prompt injekcióval szembeni ellenálló képesség Bemenetek és kimenetek szűrése; nem megbízhatóként kezeli a lekért tartalmat; indirekt injektálás blokkolása Öntödei tartalomszűrés és parancssori pajzsok
Feladat betartatás és eszközbiztonság Eszközengedély-listák és determinisztikus érvényesítés kényszerítése Öntödei ügynök védőkorlátjai
AI red-teaming Folyamatosan tesztelje a gyors injektálást, a szándéktörést, a nem biztonságos eszközválasztást és a szivárgást Foundry AI Red Teaming Agent / PyRIT
Identitás és hozzáférés ügynökökhöz A minimális jogosultság, a feltételes hozzáférés és az életciklus szabályozásának alkalmazása Microsoft Entra
Adatszabályozás > megfelelőség Bizalmas adatok besorolása és védelme Microsoft Purview
Testtartáskezelés Konfiguráció és biztonsági rések felmérése Microsoft Defender for Cloud
Visszaélés észlelése Naplók és nyomkövetések korrelálása Microsoft Sentinel

Eredmények

Előnyök

  • Az ügynökök meghatározott szándékon, engedélyen és határokon belül működnek.
  • A magas kockázatú műveletek determinisztikus emberi jóváhagyást igényelnek.
  • Az ügynök viselkedése nagy méretekben megfigyelhető, naplózható és szabályozható.
  • A bizalmas adatexpozíció minimális jogosultsággal és szabályzatkényszerítéssel csökkenthető.
  • A szervezetek az ügynökhasználat növekedésével megőrzik a láthatóságot és az ellenőrzést.
  • A megbízhatóság az átláthatóságon, az elszámoltathatóságon és a kiszámítható viselkedésen alapul.

Kompromisszumok

  • A rétegzett vezérlők implementálásához további mérnöki erőfeszítésekre van szükség.
  • Az autonóm rendszerek architekturális és üzemeltetési összetettséghez vezetnek.
  • Az emberi felügyelet súrlódást ad a nagy kockázatú munkafolyamatokhoz.
  • Az irányításhoz és a megfigyelhetőséghez tartós működési beruházásokra van szükség.

Főbb sikertényezők

  • Tevékenység betartása
  • Emberi részvétel
  • Determinisztikus biztosítékok
  • Átláthatóság és közzététel
  • Eltérítés elleni védelem
  • Minimális jogosultság és felügyelet
  • Ellátási lánc tudatossága

Összefoglalás

Az emberi potenciál felszabadítása a bizalommal kezdődik. Az ügynökrendszerek önálló tervezésének, döntésének és cselekvésének képessége azt jelenti, hogy a kis eltérések, a felügyeletek vagy a biztonsági hiányosságok jelentős következményekkel és bizalomvesztéssel járhatnak.

Ahogy ezek a rendszerek egyre mélyebben integrálódnak az eszközökkel, API-kkal és más tényezőkkel, viselkedésük egyre összetettebbé válik – és ugyanígy azok az útvonalak is, amelyeken keresztül potenciális kár bekövetkezhet. Az ügynöki viselkedéssel kapcsolatos kockázatok rendszerszintűek, és a teljes rendszerveremre kiterjedő kockázatcsökkentési stratégiákat igényelnek.

A modellek, biztonsági rendszerek, alkalmazások és elhelyezési rétegek mélységi védelmének alkalmazásával, valamint a Microsoft integrált biztonsági és ügynökkezelési ökoszisztémájának kihasználásával a szervezetek önálló, megfigyelhető és rugalmas ügynökrendszereket helyezhetnek üzembe.