Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Naam van de pijler: bedreigingen bewaken en detecteren
Patroonnaam: Beveiligde agentische AI-systemen
Context en probleem
Autonome agentische AI-systemen kunnen hulpprogramma's plannen, hulpprogramma's aanroepen, gegevens openen en acties uitvoeren met beperkte menselijke tussenkomst. Naarmate de autonomie toeneemt, neemt ook de potentiële impact van verkeerd uitlijning, misbruik en compromissen toe.
In het artikel Patronen & Praktijken
Solution
Voor het beveiligen van agentische systemen is een strategische verdediging in de diepte vereist die ervan uitgaat dat er fouten kunnen optreden op afzonderlijke lagen, en dat systemen zodanig ontworpen zijn zodat geen enkele fout tot onaanvaardbare schade leidt.
Besturingselementen binnen risicobeperkingslagen
Besturingselementen voor modellagen
Het model fungeert als de redeneringsengine van de agent en beïnvloedt hoe de agent instructies interpreteert, acties plant en reageert op adversarial invoer. Verschillende modellen bieden verschillende mogelijkheden en veiligheidsfuncties die van invloed zijn op de uitvoer en acties van de agent. Als u een geschikt model selecteert, voorkomt u onjuiste uitlijning, fouten en onveilige resultaten.
Aanbevolen besturingselementen:
- Opzettelijke modelselectie: Kies modellen waarvan de redeneringsdiepte, weigeringsgedrag en het gebruik van hulpprogrammakenmerken overeenkomen met de autonomie en het risicoprofiel van de agent. Vermindert onjuiste uitlijning van taken en onveilige acties.
- Model supply chain governance: Behandel modellen als beveiligingsafhankelijkheden door versies bij te houden, updates te controleren en wijzigingen vóór de implementatie te valideren. Vermindert inbreuk op de toeleveringsketen.
- Evaluatie en rode koppeling: Test continu modellen voor agentische bedreigingen, zoals kruispromptinjectie, intentieafbreking en onveilige hulpprogrammaselectie. Vermindert het kapen van agents en onbedoelde acties.
- Uitlijning van mogelijkheden: Vermijd overbeschikbare modellen wanneer eenvoudigere of meer beperkte modellen voldoen aan de behoeften van het systeem. Beperkt overmatige autonomie en verhoogd impactgebied.
Besturingselementen voor veiligheidssysteemlagen
De beveiligingssysteemlaag onderschept fouten tijdens runtime, wanneer agents communiceren met niet-vertrouwde inhoud, hulpprogramma's, API's en gebruikers. Deze beveiligingen vormen een essentiële verdediging tegen operationele risico's, waaronder het kapen van agents, schadelijke uitvoer, gevoelige gegevenslekken en runtime-misbruik.
Aanbevolen besturingselementen:
- Invoer- en uitvoerfilters: Schadelijke, manipulatieve of onveilige invoer en uitvoer detecteren en blokkeren, inclusief indirecte promptinjectie. Vermindert het kapen van agents en het lekken van gevoelige gegevens.
- Kaders voor agent: Ervoor zorgen dat taken worden nageleefd en het voorkomen van buiten de scope vallende of niet-veilige tool-aanroepen tijdens de uitvoering. Vermindert onbedoelde acties en misbruik met een hoge impact.
- Logboekregistratie en waarneembaarheid: Leg agentplannen, hulpprogramma-aanroepen, beslissingen en resultaten vast om controle, incidentrespons en verbetering te ondersteunen. Vermindert begrijpelijkheidsfouten en onopgemerkt misbruik.
- Misbruik en anomaliedetectie: Controleer op herhaalde bypasspogingen of afwijkende gedragspatronen. Vermindert persistente verkenning en onopgemerkte exfiltratie.
Controles voor de toepassingslaag
De toepassingslaag definieert hoe de agent is ontworpen, welke acties deze kan uitvoeren en hoe besturingselementen worden afgedwongen. Hier worden veiligheidsprincipes afdwingbaar systeemgedrag.
Aanbevolen besturingselementen:
- Agents als microservices: Ontwerp agents zoals microservices met geïsoleerde machtigingen en beperkte toegang tot hulpprogramma's. Vermindert onjuiste uitlijning, explosiestraal en gevoelige gegevenslekken.
- Expliciete actieschema's: Definieer toegestane acties, vereiste invoer, risiconiveaus, uitvoeringsbeperkingen en logboekregistratievereisten. Beperkt onbedoelde acties en onveilige aanroep van hulpprogramma's.
- Deterministische human-in-the-loop (HITL): Menselijke beoordeling afdwingen voor acties met een hoog risico of onherstelbare acties via orchestratorlogica in plaats van modelredenering. Vermindert het toezicht op hiaten en onjuiste uitlijning.
- Minimale bevoegdheden en minimale actieontwerp: Begin met standaard geen toegestane acties en schakel incrementeel mogelijkheden in op basis van rol en risico. Wijs elke agent een unieke, verifieerbare identiteit toe om RBAC af te dwingen. Voorkomt het lekken van gevoelige gegevens, overmatige verspreiding van agenten, en te veel machtigingen.
- Systeemberichten als versterking: Gebruik gestructureerde systeeminstructies om rollen en grenzen te versterken, altijd ondersteund door deterministische besturingselementen. Vermindert het kapen van agenten en verkeerde uitlijning.
Laagpositionering controleren
De plaatsingslaag beïnvloedt hoe mensen een agentisch systeem begrijpen, vertrouwen en erop vertrouwen. Slechte positionering kan risico's veroorzaken, zelfs wanneer technische besturingselementen sterk zijn.
Aanbevolen besturingselementen:
- Duidelijke openbaarmaking: Maak het expliciet wanneer gebruikers interactie hebben met een autonome AI-agent. Vermindert transparantie en openbaarmakingsfouten.
- Transparantie van mogelijkheden: Communiceer wat de agent wel en niet kan doen, inclusief beperkingen en onzekerheid. Vermijd het plaatsen van agents als gezaghebbend of onfeilbaar. Vermindert ongepaste afhankelijkheid.
- Door de gebruiker zichtbare grenzen: Geplande acties, goedkeuringen en resultaten weergeven, zodat gebruikers abnormaal gedrag kunnen detecteren. Vermindert begrijpelijkheidsfouten.
- Veilige UX-patronen: Zorg ervoor dat controle-, goedkeurings- en afsluitmechanismen toegankelijk en beveiligd zijn. Vermindert misbruik en afhankelijkheid.
Microsoft-oplossingen
In de bovenstaande besturingselementen wordt beschreven wat u moet implementeren. De volgende Microsoft-oplossingen helpen bij het operationaliseren van deze mitigaties voor identiteits-, governance-, runtime-handhaving en detectie.
Primair besturingsvlak
-
Microsoft Agent 365:
- Biedt gecentraliseerde inventarisatie, governance, toegangsgrenzen en zichtbaarheid van meerdere agents.
- Ondersteunt: agentuitbreiding-preventie, minste bevoegdheid en beheer. Ondersteunt: beveiligingspreventie van agents, minimale bevoegdheden, governance.
Modelselectie en -evaluatie
- De modelcatalogus van Microsoft Foundry om modellen te evalueren en te selecteren die geschikt zijn voor de use-case, inclusief veiligheids- en beveiligingsbasislijnen.
- Microsoft Foundry's AI Red Teaming Agent en Python Risk Identification Tool (PyRIT) voor red team en permanente evaluatie.
Veiligheidssysteem en runtime-mitigaties
-
Microsoft Foundry (veiligheidsmaatregelen, inhoudfilters, misbruikmonitoring)
- Dwingt naleving van taken af, filtert niet-vertrouwde invoer en uitvoer en detecteert misbruikpatronen.
- Ondersteunt: Prompt injectiebeperking, lekkagepreventie.
Identiteits- en gegevensbescherming
Microsoft Entra:
- Biedt identiteits-, voorwaardelijke toegang en op rollen gebaseerd toegangsbeheer voor agents.
- Ondersteunt: minimale bevoegdheden, toegangsbeheer.
Microsoft Purview:
- Biedt gegevensclassificatie, governance en beleidshandhaving.
- Ondersteunt: bescherming van gevoelige gegevens.
UX-ontwerp
- Human AI Interaction (HAX) Toolkit voor openbaarmaking en mensgerichte UX-patronen.
- Secure by Design UX Toolkit voor veilige UX-patronen
Detectie en reactie (ondersteuning)
- Microsoft Defender en Microsoft Sentinel voor beveiligingspostuurbeheer, signaalcorrelatie en reactie op incidenten in agentworkloads.
- Azure Monitor en Application Insights voor telemetrie en waarneembaarheid voor agentgedrag en prestaties.
Begeleiding
Organisaties die dit patroon willen gebruiken, kunnen de volgende praktische procedures toepassen:
| Oefeningencategorie | Aanbevolen acties | Hulpbron |
|---|---|---|
| Governance voor hulpprogramma's, agents en modellen | Agents onboarden naar Foundry met behulp van ondersteunde frameworks of aangepaste agents registreren | Microsoft Foundry Control Plane |
| Bescherming tegen inhoudsveiligheid en veerkracht tegen promptinjectie | Invoer en uitvoer filteren; de opgehaalde inhoud behandelen als niet-vertrouwde; indirecte promptinjectie blokkeren. | Filter- en promptbescherming voor foundry-inhoud |
| Naleving van taken en veiligheid van gereedschappen | Afdwingen van allowlists en deterministische validatie van tools | Foundry Agent Guardrails |
| AI red-teaming | Continu testen op promptinjectie, intentieafbreking, onveilige toolselectie en lekkage | Foundry AI Red Teaming Agent/PyRIT |
| Identiteit en toegang voor agents | Minimale bevoegdheden, voorwaardelijke toegang en levenscyclusbeheer toepassen | Microsoft Entra |
| Gegevensbeheer en naleving | Gevoelige gegevens classificeren en beveiligen | Microsoft Purview |
| Postuurbeheer | Configuratie en beveiligingsproblemen beoordelen | Microsoft Defender voor Cloud |
| Misbruik detecteren | Logboeken en traceringen correleren | Microsoft Sentinel |
Resultaten
Voordelen
- Agents werken binnen gedefinieerde intentie, machtigingen en grenzen.
- Voor acties met een hoog risico is een deterministische menselijke goedkeuring vereist.
- Agentgedrag is waarneembaar, controleerbaar en bestuurbaar op schaal.
- Blootstelling aan gevoelige gegevens wordt verminderd door minimale bevoegdheden en beleidshandhaving.
- Organisaties behouden zichtbaarheid en controle naarmate het gebruik van agents toeneemt.
- Vertrouwen wordt opgebouwd door transparantie, verantwoordelijkheid en voorspelbaar gedrag.
Compromissen
- Aanvullende technische inspanningen zijn vereist voor het implementeren van gelaagde besturingselementen.
- Autonome systemen introduceren architectuur- en operationele complexiteit.
- Menselijk toezicht voegt wrijving toe aan werkstromen met een hoog risico.
- Governance en waarneembaarheid vereisen duurzame operationele investeringen.
Belangrijke succesfactoren
- Taaknaleving
- Menselijke betrokkenheid
- Deterministische waarborgen
- Transparantie en openbaarmaking
- Hijacking weerstand
- Principe van minste privilege en governance
- Kennis van de toeleveringsketen
Overzicht
Het ontgrendelen van menselijk potentieel begint met vertrouwen. De mogelijkheid van agentische systemen om autonoom te plannen, te beslissen en te handelen, betekent dat kleine onjuiste uitlijningen, toezicht of beveiligingsproblemen kunnen leiden tot aanzienlijke gevolgen en verlies van vertrouwen.
Naarmate deze systemen dieper worden geïntegreerd met tools, API's en andere agents, wordt hun gedrag steeds complexer - en dat geldt ook voor de wegen waardoor schade kan ontstaan. De risico's die zijn gekoppeld aan agentisch gedrag zijn systemisch en vereisen risicobeperkingsstrategieën die de volledige systeemstack omvatten.
Door diepgaande verdediging toe te passen op modellen, veiligheidssystemen, toepassingen en positioneringslagen, en door gebruik te maken van het geïntegreerde ecosysteem voor beveiliging en agentbeheer van Microsoft, kunnen organisaties agentische systemen implementeren die autonoom, waarneembaar en tolerant zijn.