Proteggere i sistemi di intelligenza artificiale autonomi agentici

Nome pilastro: Monitorare e rilevare le minacce
Nome modello: Sistemi di intelligenza artificiale agenti sicuri

Contesto e problema

I sistemi di intelligenza artificiale agentic autonomi possono pianificare, richiamare strumenti, accedere ai dati ed eseguire azioni con un intervento umano limitato. Man mano che aumenta l'autonomia, aumenta anche il potenziale impatto di disallineamento, uso improprio e compromissione.

L'articolo Modelli e procedure complementari Riduce il rischio per i sistemi di intelligenza artificiale agentic autonomi descrive i rischi di progettazione, sicurezza e governance introdotti dal comportamento agentico. Questo modello passa dall'identificazione dei rischi alla riduzione dei rischi, concentrandosi sui controlli e sulle decisioni di progettazione che attenuano tali rischi in pratica.

Soluzione

La protezione dei sistemi agenti richiede una strategia di difesa approfondita che presuppone errori a singoli livelli e progetta sistemi in modo che nessun singolo guasto comporti danni inaccettabili.

Controlli all'interno dei livelli di mitigazione

Controlli livello modello

Il modello funge da motore di ragionamento dell'agente e influenza il modo in cui l'agente interpreta le istruzioni, pianifica le azioni e risponde agli input antagonisti. I diversi modelli offrono funzionalità e funzionalità di sicurezza diverse che influenzano gli output e le azioni dell'agente. La selezione di un modello appropriato consente di evitare disallineamenti, errori e risultati non sicuri.

Controlli consigliati:

Selezione intenzionale del modello: Scegliere modelli la cui profondità di ragionamento, il comportamento di rifiuto e gli strumenti utilizzano caratteristiche che corrispondono all'autonomia e al profilo di rischio dell'agente. Riduce il disallineamento delle attività e le azioni non sicure.
Governance della catena di fornitura dei modelli: Gestire i modelli come dipendenze di sicurezza monitorando le versioni, esaminando gli aggiornamenti e convalidando le modifiche prima della distribuzione. Riduce la compromissione della catena di approvvigionamento.
Valutazione e red teaming: Testare continuamente i modelli per rilevare minacce agentiche, come l'inserimento incrociato delle richieste, l'interruzione dell'intento e la scelta di strumenti insicuri. Attenua il dirottamento degli agenti e le azioni involontarie.
Allineamento delle funzionalità: Evitare modelli con capacità eccessiva quando i modelli più semplici o più vincolati soddisfano le esigenze del sistema. Riduce l'autonomia eccessiva e aumenta il raggio di esplosione.

Controlli a livello di sistema di sicurezza

Il livello del sistema di sicurezza intercetta gli errori in fase di esecuzione, quando gli agenti interagiscono con contenuto, strumenti, API e utenti non attendibili. Queste misure di sicurezza costituiscono una difesa essenziale contro i rischi operativi, tra cui il dirottamento dell'agente, gli output dannosi, la perdita di dati sensibili e l'uso improprio del runtime.

Controlli consigliati:

Filtro di input e output: Rilevare e bloccare gli input e output dannosi, manipolativi o non sicuri, inclusa l'iniezione di prompt indiretta. Attenua il dirottamento dell'agente e la perdita di dati sensibili.
Guardrail degli agenti: Assicurare l'aderenza ai compiti e impedire invocazioni di strumenti fuori ambito o non sicuri durante l'esecuzione. Attenua le azioni indesiderate e l'uso improprio ad alto impatto.
Registrazione e osservabilità: Acquisire piani agente, chiamate, decisioni e risultati degli strumenti per supportare il controllo, la risposta agli eventi imprevisti e il miglioramento. Attenua gli errori di intelligibilità e l'uso improprio non rilevato.
Rilevamento di anomalie e abusi: Monitorare i tentativi di bypass ripetuti o i modelli di comportamento anomali. Attenua il sondaggio persistente e l'esfiltrazione furtiva.

Controlli livello applicazione

Il livello applicazione definisce la modalità di progettazione dell'agente, le azioni che può eseguire e il modo in cui vengono applicati i controlli. Ecco dove i principi di sicurezza diventano un comportamento di sistema imponibile.

Controlli consigliati:

Agenti come microservizi: Progettare agenti come microservizi con autorizzazioni isolate e accesso agli strumenti con ambito limitato. Riduce il disallineamento, il raggio di esplosione e la perdita di dati sensibili.
Schemi di azione espliciti: Definire azioni consentite, input necessari, livelli di rischio, vincoli di esecuzione e requisiti di registrazione. Attenua le azioni indesiderate e la chiamata di strumenti non sicuri.
Ciclo umano deterministico (HITL): Applicare la revisione umana per azioni ad alto rischio o irreversibile tramite la logica dell'agente di orchestrazione anziché il ragionamento del modello. Attenua le lacune e il disallineamento del controllo della supervisione.
Progettazione dei privilegi minimi e minima azione: Iniziare senza azioni consentite per impostazione predefinita e abilitare in modo incrementale le funzionalità in base al ruolo e al rischio. Assegnare a ogni agente un'identità univoca verificabile per garantire RBAC. Mitiga la perdita di dati sensibili, la proliferazione eccessiva dell'agente e l'attribuzione eccessiva di permessi.
Messaggi di sistema come rinforzo: Usare istruzioni di sistema strutturate per rafforzare ruoli e limiti, sempre supportati da controlli deterministici. Attenua il dirottamento e il disallineamento degli agenti.

Controlli dello strato di posizionamento

Il livello di posizionamento forma il modo in cui le persone comprendono, ritengono affidabile e si affidano a un sistema autonomo. Il posizionamento scarso può introdurre rischi anche quando i controlli tecnici sono forti.

Controlli consigliati:

Divulgazione chiara: Renderlo esplicito quando gli utenti interagiscono con un agente di intelligenza artificiale autonomo. Riduce la trasparenza e gli errori di divulgazione.
Trasparenza delle funzionalità: Comunicare ciò che l'agente può e non può fare, incluse le limitazioni e l'incertezza. Evitare di posizionare gli agenti come autorevoli o infallibili. Riduce la dipendenza inappropriata.
Limiti visibili all'utente: Mettere in evidenza azioni pianificate, approvazioni e risultati in modo che gli utenti possano rilevare comportamenti anomali. Attenua gli errori di intelligibilità.
Modelli di esperienza utente sicura: Assicurarsi che i meccanismi di revisione, approvazione e arresto siano accessibili e protetti. Mitiga l'uso improprio e l'eccessiva dipendenza.

Soluzioni Microsoft

I controlli precedenti descrivono cosa implementare. Le soluzioni Microsoft seguenti consentono di rendere operative queste mitigazioni in identità, governance, applicazione del runtime e rilevamento.

Piano di controllo primario

Microsoft Agent 365:
- Fornisce inventario centralizzato, governance, limiti di accesso e visibilità tra agenti.
- Supporta: prevenzione della proliferazione degli agenti, privilegi minimi e governance. Supporta la prevenzione dell'espansione incontrollata degli agenti, i privilegi minimi, la governance.

Selezione e valutazione del modello

Catalogo modelli di Microsoft Foundry per valutare e selezionare i modelli appropriati per il caso d'uso, incluse le baseline di sicurezza e sicurezza.
Agente di Red Teaming AI di Microsoft Foundry e il Python Risk Identification Tool (PyRIT) per il red team e la valutazione continua.

Mitigazioni del sistema di sicurezza e del runtime

Microsoft Foundry (Guardrails, Filtri dei Contenuti, Monitoraggio degli Abusi)
- Applica la conformità delle attività, filtra gli input e gli output non attendibili e rileva i modelli di uso improprio.
- Supporto: mitigazione dell'inserimento dei prompt, prevenzione della perdita.

Identità e protezione dei dati

Microsoft Entra:
- Fornisce identità, accesso condizionale e controllo degli accessi in base al ruolo per gli agenti.
- Supporta: privilegi minimi, controllo di accesso.
Microsoft Purview:
- Fornisce la classificazione dei dati, la governance e l'applicazione delle politiche.
- Supporta: protezione dei dati sensibili.

Progettazione dell'esperienza utente

Human AI Interaction (HAX) Toolkit per la divulgazione e i modelli di esperienza utente incentrati sull'uomo.
Secure by Design UX Toolkit for secure UX Patterns

Rilevamento e risposta (supporto)

Microsoft Defender e Microsoft Sentinel per la gestione del comportamento di sicurezza, la correlazione dei segnali e la risposta agli eventi imprevisti nei carichi di lavoro degli agenti.
Azure Monitor e Application Insights per la telemetria e l'osservabilità del comportamento e delle prestazioni degli agenti.

Linee guida

Le organizzazioni che cercano di adottare questo modello possono applicare le procedure praticabili seguenti:

Categoria di Pratica	Azioni consigliate	risorsa
Governance per strumenti, agenti e modelli	Eseguire l'onboarding degli agenti in Foundry usando framework supportati o registrare agenti personalizzati	Piano di controllo di Microsoft Foundry
Sicurezza del contenuto e resilienza all'iniezione di prompt	Filtrare gli input e gli output; trattare il contenuto recuperato come non attendibile; bloccare l'iniezione indiretta di prompt	Filtri contenuto Foundry e protezioni prompt
Conformità alle attività e sicurezza degli strumenti	Applicare gli elenchi consentiti degli strumenti e la convalida deterministica	Guardrail dell'agente Foundry
Red-teaming dell'intelligenza artificiale	Testare continuamente l'iniezione di prompt, l'interruzione dell'intento, la selezione di strumenti non sicuri e la fuga di dati	Foundry AI Red Teaming Agent/PyRIT
Identità e accesso per gli agenti	Applicare il principio dei privilegi minimi, accesso condizionale e gestione del ciclo di vita.	Microsoft Entra
Governance e conformità dei dati	Classificare e proteggere i dati sensibili	Microsoft Purview
Gestione della postura	Valutare la configurazione e le vulnerabilità	Microsoft Defender for Cloud
Rilevamento dell'uso improprio	Correlare i log e le tracce	Microsoft Sentinel

Risultati

Vantaggi

Gli agenti operano all'interno di finalità, autorizzazioni e limiti definiti.
Le azioni ad alto rischio richiedono l'approvazione umana deterministica.
Il comportamento dell'agente è osservabile, controllabile e controllabile su larga scala.
L'esposizione dei dati sensibili viene ridotta tramite privilegi minimi e applicazione dei criteri.
Le organizzazioni mantengono visibilità e controllo man mano che aumenta l'utilizzo degli agenti.
L'attendibilità è basata su trasparenza, responsabilità e comportamento prevedibile.

Compromessi

Per implementare controlli a più livelli, è necessario un ulteriore impegno di progettazione.
I sistemi autonomi introducono complessità architetturale e operativa.
La supervisione umana aggiunge attrito ai flussi di lavoro ad alto rischio.
La governance e l'osservabilità richiedono investimenti operativi sostenuti.

Fattori chiave di successo

Conformità delle attività
Coinvolgimento umano
Misure di sicurezza deterministiche
Trasparenza e divulgazione
Resistenza al dirottamento
Principio del privilegio minimo e governance
Consapevolezza della catena di approvvigionamento

Sommario

Lo sblocco del potenziale umano inizia con fiducia. La capacità dei sistemi agentici di pianificare, decidere e agire autonomamente significa che piccoli errori di allineamento, supervisione o lacune di sicurezza possono causare conseguenze significative e perdita di fiducia.

Man mano che questi sistemi diventano più profondamente integrati con strumenti, API e altri agenti, il loro comportamento diventa sempre più complesso e quindi i percorsi attraverso i quali possono verificarsi danni. I rischi associati al comportamento agentico sono sistemici e richiedono strategie di mitigazione che si estendono sullo stack di sistema completo.

Applicando la difesa avanzata tra modelli, sistemi di sicurezza, applicazioni e livelli di posizionamento e sfruttando l'ecosistema integrato di sicurezza e gestione degli agenti di Microsoft, le organizzazioni possono distribuire sistemi agenti autonomi, osservabili e resilienti in base alla progettazione.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-19

Proteggere i sistemi di intelligenza artificiale autonomi agentici

Contesto e problema

Soluzione

Controlli all'interno dei livelli di mitigazione

Controlli livello modello

Controlli a livello di sistema di sicurezza

Controlli livello applicazione

Controlli dello strato di posizionamento

Soluzioni Microsoft

Piano di controllo primario

Selezione e valutazione del modello

Mitigazioni del sistema di sicurezza e del runtime

Identità e protezione dei dati

Progettazione dell'esperienza utente

Rilevamento e risposta (supporto)

Linee guida

Risultati

Vantaggi

Compromessi

Fattori chiave di successo

Sommario

Commenti e suggerimenti

Risorse aggiuntive