Autonome, agentische AI-systemen beveiligen

Naam van de pijler: bedreigingen bewaken en detecteren
Patroonnaam: Beveiligde agentische AI-systemen

Context en probleem

Autonome agentische AI-systemen kunnen hulpprogramma's plannen, hulpprogramma's aanroepen, gegevens openen en acties uitvoeren met beperkte menselijke tussenkomst. Naarmate de autonomie toeneemt, neemt ook de potentiële impact van verkeerd uitlijning, misbruik en compromissen toe.

In het artikel Patronen & Praktijken Risico’s verminderen voor autonome, agentische AI-systemen worden de ontwerp-, beveiligings- en governance-risico’s besproken die worden geïntroduceerd door agentisch gedrag. Dit patroon verschuift van risicoidentificatie tot risicoreductie, waarbij u zich richt op de controles en ontwerpbeslissingen die deze risico's in de praktijk beperken.

Solution

Voor het beveiligen van agentische systemen is een strategische verdediging in de diepte vereist die ervan uitgaat dat er fouten kunnen optreden op afzonderlijke lagen, en dat systemen zodanig ontworpen zijn zodat geen enkele fout tot onaanvaardbare schade leidt.

Besturingselementen binnen risicobeperkingslagen

Besturingselementen voor modellagen

Het model fungeert als de redeneringsengine van de agent en beïnvloedt hoe de agent instructies interpreteert, acties plant en reageert op adversarial invoer. Verschillende modellen bieden verschillende mogelijkheden en veiligheidsfuncties die van invloed zijn op de uitvoer en acties van de agent. Als u een geschikt model selecteert, voorkomt u onjuiste uitlijning, fouten en onveilige resultaten.

Aanbevolen besturingselementen:

Opzettelijke modelselectie: Kies modellen waarvan de redeneringsdiepte, weigeringsgedrag en het gebruik van hulpprogrammakenmerken overeenkomen met de autonomie en het risicoprofiel van de agent. Vermindert onjuiste uitlijning van taken en onveilige acties.
Model supply chain governance: Behandel modellen als beveiligingsafhankelijkheden door versies bij te houden, updates te controleren en wijzigingen vóór de implementatie te valideren. Vermindert inbreuk op de toeleveringsketen.
Evaluatie en rode koppeling: Test continu modellen voor agentische bedreigingen, zoals kruispromptinjectie, intentieafbreking en onveilige hulpprogrammaselectie. Vermindert het kapen van agents en onbedoelde acties.
Uitlijning van mogelijkheden: Vermijd overbeschikbare modellen wanneer eenvoudigere of meer beperkte modellen voldoen aan de behoeften van het systeem. Beperkt overmatige autonomie en verhoogd impactgebied.

Besturingselementen voor veiligheidssysteemlagen

De beveiligingssysteemlaag onderschept fouten tijdens runtime, wanneer agents communiceren met niet-vertrouwde inhoud, hulpprogramma's, API's en gebruikers. Deze beveiligingen vormen een essentiële verdediging tegen operationele risico's, waaronder het kapen van agents, schadelijke uitvoer, gevoelige gegevenslekken en runtime-misbruik.

Aanbevolen besturingselementen:

Invoer- en uitvoerfilters: Schadelijke, manipulatieve of onveilige invoer en uitvoer detecteren en blokkeren, inclusief indirecte promptinjectie. Vermindert het kapen van agents en het lekken van gevoelige gegevens.
Kaders voor agent: Ervoor zorgen dat taken worden nageleefd en het voorkomen van buiten de scope vallende of niet-veilige tool-aanroepen tijdens de uitvoering. Vermindert onbedoelde acties en misbruik met een hoge impact.
Logboekregistratie en waarneembaarheid: Leg agentplannen, hulpprogramma-aanroepen, beslissingen en resultaten vast om controle, incidentrespons en verbetering te ondersteunen. Vermindert begrijpelijkheidsfouten en onopgemerkt misbruik.
Misbruik en anomaliedetectie: Controleer op herhaalde bypasspogingen of afwijkende gedragspatronen. Vermindert persistente verkenning en onopgemerkte exfiltratie.

Controles voor de toepassingslaag

De toepassingslaag definieert hoe de agent is ontworpen, welke acties deze kan uitvoeren en hoe besturingselementen worden afgedwongen. Hier worden veiligheidsprincipes afdwingbaar systeemgedrag.

Aanbevolen besturingselementen:

Agents als microservices: Ontwerp agents zoals microservices met geïsoleerde machtigingen en beperkte toegang tot hulpprogramma's. Vermindert onjuiste uitlijning, explosiestraal en gevoelige gegevenslekken.
Expliciete actieschema's: Definieer toegestane acties, vereiste invoer, risiconiveaus, uitvoeringsbeperkingen en logboekregistratievereisten. Beperkt onbedoelde acties en onveilige aanroep van hulpprogramma's.
Deterministische human-in-the-loop (HITL): Menselijke beoordeling afdwingen voor acties met een hoog risico of onherstelbare acties via orchestratorlogica in plaats van modelredenering. Vermindert het toezicht op hiaten en onjuiste uitlijning.
Minimale bevoegdheden en minimale actieontwerp: Begin met standaard geen toegestane acties en schakel incrementeel mogelijkheden in op basis van rol en risico. Wijs elke agent een unieke, verifieerbare identiteit toe om RBAC af te dwingen. Voorkomt het lekken van gevoelige gegevens, overmatige verspreiding van agenten, en te veel machtigingen.
Systeemberichten als versterking: Gebruik gestructureerde systeeminstructies om rollen en grenzen te versterken, altijd ondersteund door deterministische besturingselementen. Vermindert het kapen van agenten en verkeerde uitlijning.

Laagpositionering controleren

De plaatsingslaag beïnvloedt hoe mensen een agentisch systeem begrijpen, vertrouwen en erop vertrouwen. Slechte positionering kan risico's veroorzaken, zelfs wanneer technische besturingselementen sterk zijn.

Aanbevolen besturingselementen:

Duidelijke openbaarmaking: Maak het expliciet wanneer gebruikers interactie hebben met een autonome AI-agent. Vermindert transparantie en openbaarmakingsfouten.
Transparantie van mogelijkheden: Communiceer wat de agent wel en niet kan doen, inclusief beperkingen en onzekerheid. Vermijd het plaatsen van agents als gezaghebbend of onfeilbaar. Vermindert ongepaste afhankelijkheid.
Door de gebruiker zichtbare grenzen: Geplande acties, goedkeuringen en resultaten weergeven, zodat gebruikers abnormaal gedrag kunnen detecteren. Vermindert begrijpelijkheidsfouten.
Veilige UX-patronen: Zorg ervoor dat controle-, goedkeurings- en afsluitmechanismen toegankelijk en beveiligd zijn. Vermindert misbruik en afhankelijkheid.

Microsoft-oplossingen

In de bovenstaande besturingselementen wordt beschreven wat u moet implementeren. De volgende Microsoft-oplossingen helpen bij het operationaliseren van deze mitigaties voor identiteits-, governance-, runtime-handhaving en detectie.

Primair besturingsvlak

Microsoft Agent 365:
- Biedt gecentraliseerde inventarisatie, governance, toegangsgrenzen en zichtbaarheid van meerdere agents.
- Ondersteunt: agentuitbreiding-preventie, minste bevoegdheid en beheer. Ondersteunt: beveiligingspreventie van agents, minimale bevoegdheden, governance.

Modelselectie en -evaluatie

De modelcatalogus van Microsoft Foundry om modellen te evalueren en te selecteren die geschikt zijn voor de use-case, inclusief veiligheids- en beveiligingsbasislijnen.
Microsoft Foundry's AI Red Teaming Agent en Python Risk Identification Tool (PyRIT) voor red team en permanente evaluatie.

Veiligheidssysteem en runtime-mitigaties

Microsoft Foundry (veiligheidsmaatregelen, inhoudfilters, misbruikmonitoring)
- Dwingt naleving van taken af, filtert niet-vertrouwde invoer en uitvoer en detecteert misbruikpatronen.
- Ondersteunt: Prompt injectiebeperking, lekkagepreventie.

Identiteits- en gegevensbescherming

Microsoft Entra:
- Biedt identiteits-, voorwaardelijke toegang en op rollen gebaseerd toegangsbeheer voor agents.
- Ondersteunt: minimale bevoegdheden, toegangsbeheer.
Microsoft Purview:
- Biedt gegevensclassificatie, governance en beleidshandhaving.
- Ondersteunt: bescherming van gevoelige gegevens.

UX-ontwerp

Human AI Interaction (HAX) Toolkit voor openbaarmaking en mensgerichte UX-patronen.
Secure by Design UX Toolkit voor veilige UX-patronen

Detectie en reactie (ondersteuning)

Microsoft Defender en Microsoft Sentinel voor beveiligingspostuurbeheer, signaalcorrelatie en reactie op incidenten in agentworkloads.
Azure Monitor en Application Insights voor telemetrie en waarneembaarheid voor agentgedrag en prestaties.

Begeleiding

Organisaties die dit patroon willen gebruiken, kunnen de volgende praktische procedures toepassen:

Oefeningencategorie	Aanbevolen acties	Hulpbron
Governance voor hulpprogramma's, agents en modellen	Agents onboarden naar Foundry met behulp van ondersteunde frameworks of aangepaste agents registreren	Microsoft Foundry Control Plane
Bescherming tegen inhoudsveiligheid en veerkracht tegen promptinjectie	Invoer en uitvoer filteren; de opgehaalde inhoud behandelen als niet-vertrouwde; indirecte promptinjectie blokkeren.	Filter- en promptbescherming voor foundry-inhoud
Naleving van taken en veiligheid van gereedschappen	Afdwingen van allowlists en deterministische validatie van tools	Foundry Agent Guardrails
AI red-teaming	Continu testen op promptinjectie, intentieafbreking, onveilige toolselectie en lekkage	Foundry AI Red Teaming Agent/PyRIT
Identiteit en toegang voor agents	Minimale bevoegdheden, voorwaardelijke toegang en levenscyclusbeheer toepassen	Microsoft Entra
Gegevensbeheer en naleving	Gevoelige gegevens classificeren en beveiligen	Microsoft Purview
Postuurbeheer	Configuratie en beveiligingsproblemen beoordelen	Microsoft Defender voor Cloud
Misbruik detecteren	Logboeken en traceringen correleren	Microsoft Sentinel

Resultaten

Voordelen

Agents werken binnen gedefinieerde intentie, machtigingen en grenzen.
Voor acties met een hoog risico is een deterministische menselijke goedkeuring vereist.
Agentgedrag is waarneembaar, controleerbaar en bestuurbaar op schaal.
Blootstelling aan gevoelige gegevens wordt verminderd door minimale bevoegdheden en beleidshandhaving.
Organisaties behouden zichtbaarheid en controle naarmate het gebruik van agents toeneemt.
Vertrouwen wordt opgebouwd door transparantie, verantwoordelijkheid en voorspelbaar gedrag.

Compromissen

Aanvullende technische inspanningen zijn vereist voor het implementeren van gelaagde besturingselementen.
Autonome systemen introduceren architectuur- en operationele complexiteit.
Menselijk toezicht voegt wrijving toe aan werkstromen met een hoog risico.
Governance en waarneembaarheid vereisen duurzame operationele investeringen.

Belangrijke succesfactoren

Taaknaleving
Menselijke betrokkenheid
Deterministische waarborgen
Transparantie en openbaarmaking
Hijacking weerstand
Principe van minste privilege en governance
Kennis van de toeleveringsketen

Overzicht

Het ontgrendelen van menselijk potentieel begint met vertrouwen. De mogelijkheid van agentische systemen om autonoom te plannen, te beslissen en te handelen, betekent dat kleine onjuiste uitlijningen, toezicht of beveiligingsproblemen kunnen leiden tot aanzienlijke gevolgen en verlies van vertrouwen.

Naarmate deze systemen dieper worden geïntegreerd met tools, API's en andere agents, wordt hun gedrag steeds complexer - en dat geldt ook voor de wegen waardoor schade kan ontstaan. De risico's die zijn gekoppeld aan agentisch gedrag zijn systemisch en vereisen risicobeperkingsstrategieën die de volledige systeemstack omvatten.

Door diepgaande verdediging toe te passen op modellen, veiligheidssystemen, toepassingen en positioneringslagen, en door gebruik te maken van het geïntegreerde ecosysteem voor beveiliging en agentbeheer van Microsoft, kunnen organisaties agentische systemen implementeren die autonoom, waarneembaar en tolerant zijn.

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-19

Autonome, agentische AI-systemen beveiligen

Context en probleem

Solution

Besturingselementen binnen risicobeperkingslagen

Besturingselementen voor modellagen

Besturingselementen voor veiligheidssysteemlagen

Controles voor de toepassingslaag

Laagpositionering controleren

Microsoft-oplossingen

Primair besturingsvlak

Modelselectie en -evaluatie

Veiligheidssysteem en runtime-mitigaties

Identiteits- en gegevensbescherming

UX-ontwerp

Detectie en reactie (ondersteuning)

Begeleiding

Resultaten

Voordelen

Compromissen

Belangrijke succesfactoren

Overzicht

Feedback

Aanvullende resources