Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Nome pilastro: Monitorare e rilevare le minacce
Nome modello: Sistemi di intelligenza artificiale agenti sicuri
Contesto e problema
I sistemi di intelligenza artificiale agentic autonomi possono pianificare, richiamare strumenti, accedere ai dati ed eseguire azioni con un intervento umano limitato. Man mano che aumenta l'autonomia, aumenta anche il potenziale impatto di disallineamento, uso improprio e compromissione.
L'articolo Modelli e procedure complementari Riduce il rischio per i sistemi di intelligenza artificiale agentic autonomi descrive i rischi di progettazione, sicurezza e governance introdotti dal comportamento agentico. Questo modello passa dall'identificazione dei rischi alla riduzione dei rischi, concentrandosi sui controlli e sulle decisioni di progettazione che attenuano tali rischi in pratica.
Soluzione
La protezione dei sistemi agenti richiede una strategia di difesa approfondita che presuppone errori a singoli livelli e progetta sistemi in modo che nessun singolo guasto comporti danni inaccettabili.
Controlli all'interno dei livelli di mitigazione
Controlli livello modello
Il modello funge da motore di ragionamento dell'agente e influenza il modo in cui l'agente interpreta le istruzioni, pianifica le azioni e risponde agli input antagonisti. I diversi modelli offrono funzionalità e funzionalità di sicurezza diverse che influenzano gli output e le azioni dell'agente. La selezione di un modello appropriato consente di evitare disallineamenti, errori e risultati non sicuri.
Controlli consigliati:
- Selezione intenzionale del modello: Scegliere modelli la cui profondità di ragionamento, il comportamento di rifiuto e gli strumenti utilizzano caratteristiche che corrispondono all'autonomia e al profilo di rischio dell'agente. Riduce il disallineamento delle attività e le azioni non sicure.
- Governance della catena di fornitura dei modelli: Gestire i modelli come dipendenze di sicurezza monitorando le versioni, esaminando gli aggiornamenti e convalidando le modifiche prima della distribuzione. Riduce la compromissione della catena di approvvigionamento.
- Valutazione e red teaming: Testare continuamente i modelli per rilevare minacce agentiche, come l'inserimento incrociato delle richieste, l'interruzione dell'intento e la scelta di strumenti insicuri. Attenua il dirottamento degli agenti e le azioni involontarie.
- Allineamento delle funzionalità: Evitare modelli con capacità eccessiva quando i modelli più semplici o più vincolati soddisfano le esigenze del sistema. Riduce l'autonomia eccessiva e aumenta il raggio di esplosione.
Controlli a livello di sistema di sicurezza
Il livello del sistema di sicurezza intercetta gli errori in fase di esecuzione, quando gli agenti interagiscono con contenuto, strumenti, API e utenti non attendibili. Queste misure di sicurezza costituiscono una difesa essenziale contro i rischi operativi, tra cui il dirottamento dell'agente, gli output dannosi, la perdita di dati sensibili e l'uso improprio del runtime.
Controlli consigliati:
- Filtro di input e output: Rilevare e bloccare gli input e output dannosi, manipolativi o non sicuri, inclusa l'iniezione di prompt indiretta. Attenua il dirottamento dell'agente e la perdita di dati sensibili.
- Guardrail degli agenti: Assicurare l'aderenza ai compiti e impedire invocazioni di strumenti fuori ambito o non sicuri durante l'esecuzione. Attenua le azioni indesiderate e l'uso improprio ad alto impatto.
- Registrazione e osservabilità: Acquisire piani agente, chiamate, decisioni e risultati degli strumenti per supportare il controllo, la risposta agli eventi imprevisti e il miglioramento. Attenua gli errori di intelligibilità e l'uso improprio non rilevato.
- Rilevamento di anomalie e abusi: Monitorare i tentativi di bypass ripetuti o i modelli di comportamento anomali. Attenua il sondaggio persistente e l'esfiltrazione furtiva.
Controlli livello applicazione
Il livello applicazione definisce la modalità di progettazione dell'agente, le azioni che può eseguire e il modo in cui vengono applicati i controlli. Ecco dove i principi di sicurezza diventano un comportamento di sistema imponibile.
Controlli consigliati:
- Agenti come microservizi: Progettare agenti come microservizi con autorizzazioni isolate e accesso agli strumenti con ambito limitato. Riduce il disallineamento, il raggio di esplosione e la perdita di dati sensibili.
- Schemi di azione espliciti: Definire azioni consentite, input necessari, livelli di rischio, vincoli di esecuzione e requisiti di registrazione. Attenua le azioni indesiderate e la chiamata di strumenti non sicuri.
- Ciclo umano deterministico (HITL): Applicare la revisione umana per azioni ad alto rischio o irreversibile tramite la logica dell'agente di orchestrazione anziché il ragionamento del modello. Attenua le lacune e il disallineamento del controllo della supervisione.
- Progettazione dei privilegi minimi e minima azione: Iniziare senza azioni consentite per impostazione predefinita e abilitare in modo incrementale le funzionalità in base al ruolo e al rischio. Assegnare a ogni agente un'identità univoca verificabile per garantire RBAC. Mitiga la perdita di dati sensibili, la proliferazione eccessiva dell'agente e l'attribuzione eccessiva di permessi.
- Messaggi di sistema come rinforzo: Usare istruzioni di sistema strutturate per rafforzare ruoli e limiti, sempre supportati da controlli deterministici. Attenua il dirottamento e il disallineamento degli agenti.
Controlli dello strato di posizionamento
Il livello di posizionamento forma il modo in cui le persone comprendono, ritengono affidabile e si affidano a un sistema autonomo. Il posizionamento scarso può introdurre rischi anche quando i controlli tecnici sono forti.
Controlli consigliati:
- Divulgazione chiara: Renderlo esplicito quando gli utenti interagiscono con un agente di intelligenza artificiale autonomo. Riduce la trasparenza e gli errori di divulgazione.
- Trasparenza delle funzionalità: Comunicare ciò che l'agente può e non può fare, incluse le limitazioni e l'incertezza. Evitare di posizionare gli agenti come autorevoli o infallibili. Riduce la dipendenza inappropriata.
- Limiti visibili all'utente: Mettere in evidenza azioni pianificate, approvazioni e risultati in modo che gli utenti possano rilevare comportamenti anomali. Attenua gli errori di intelligibilità.
- Modelli di esperienza utente sicura: Assicurarsi che i meccanismi di revisione, approvazione e arresto siano accessibili e protetti. Mitiga l'uso improprio e l'eccessiva dipendenza.
Soluzioni Microsoft
I controlli precedenti descrivono cosa implementare. Le soluzioni Microsoft seguenti consentono di rendere operative queste mitigazioni in identità, governance, applicazione del runtime e rilevamento.
Piano di controllo primario
-
Microsoft Agent 365:
- Fornisce inventario centralizzato, governance, limiti di accesso e visibilità tra agenti.
- Supporta: prevenzione della proliferazione degli agenti, privilegi minimi e governance. Supporta la prevenzione dell'espansione incontrollata degli agenti, i privilegi minimi, la governance.
Selezione e valutazione del modello
- Catalogo modelli di Microsoft Foundry per valutare e selezionare i modelli appropriati per il caso d'uso, incluse le baseline di sicurezza e sicurezza.
- Agente di Red Teaming AI di Microsoft Foundry e il Python Risk Identification Tool (PyRIT) per il red team e la valutazione continua.
Mitigazioni del sistema di sicurezza e del runtime
-
Microsoft Foundry (Guardrails, Filtri dei Contenuti, Monitoraggio degli Abusi)
- Applica la conformità delle attività, filtra gli input e gli output non attendibili e rileva i modelli di uso improprio.
- Supporto: mitigazione dell'inserimento dei prompt, prevenzione della perdita.
Identità e protezione dei dati
Microsoft Entra:
- Fornisce identità, accesso condizionale e controllo degli accessi in base al ruolo per gli agenti.
- Supporta: privilegi minimi, controllo di accesso.
Microsoft Purview:
- Fornisce la classificazione dei dati, la governance e l'applicazione delle politiche.
- Supporta: protezione dei dati sensibili.
Progettazione dell'esperienza utente
- Human AI Interaction (HAX) Toolkit per la divulgazione e i modelli di esperienza utente incentrati sull'uomo.
- Secure by Design UX Toolkit for secure UX Patterns
Rilevamento e risposta (supporto)
- Microsoft Defender e Microsoft Sentinel per la gestione del comportamento di sicurezza, la correlazione dei segnali e la risposta agli eventi imprevisti nei carichi di lavoro degli agenti.
- Azure Monitor e Application Insights per la telemetria e l'osservabilità del comportamento e delle prestazioni degli agenti.
Linee guida
Le organizzazioni che cercano di adottare questo modello possono applicare le procedure praticabili seguenti:
| Categoria di Pratica | Azioni consigliate | risorsa |
|---|---|---|
| Governance per strumenti, agenti e modelli | Eseguire l'onboarding degli agenti in Foundry usando framework supportati o registrare agenti personalizzati | Piano di controllo di Microsoft Foundry |
| Sicurezza del contenuto e resilienza all'iniezione di prompt | Filtrare gli input e gli output; trattare il contenuto recuperato come non attendibile; bloccare l'iniezione indiretta di prompt | Filtri contenuto Foundry e protezioni prompt |
| Conformità alle attività e sicurezza degli strumenti | Applicare gli elenchi consentiti degli strumenti e la convalida deterministica | Guardrail dell'agente Foundry |
| Red-teaming dell'intelligenza artificiale | Testare continuamente l'iniezione di prompt, l'interruzione dell'intento, la selezione di strumenti non sicuri e la fuga di dati | Foundry AI Red Teaming Agent/PyRIT |
| Identità e accesso per gli agenti | Applicare il principio dei privilegi minimi, accesso condizionale e gestione del ciclo di vita. | Microsoft Entra |
| Governance e conformità dei dati | Classificare e proteggere i dati sensibili | Microsoft Purview |
| Gestione della postura | Valutare la configurazione e le vulnerabilità | Microsoft Defender for Cloud |
| Rilevamento dell'uso improprio | Correlare i log e le tracce | Microsoft Sentinel |
Risultati
Vantaggi
- Gli agenti operano all'interno di finalità, autorizzazioni e limiti definiti.
- Le azioni ad alto rischio richiedono l'approvazione umana deterministica.
- Il comportamento dell'agente è osservabile, controllabile e controllabile su larga scala.
- L'esposizione dei dati sensibili viene ridotta tramite privilegi minimi e applicazione dei criteri.
- Le organizzazioni mantengono visibilità e controllo man mano che aumenta l'utilizzo degli agenti.
- L'attendibilità è basata su trasparenza, responsabilità e comportamento prevedibile.
Compromessi
- Per implementare controlli a più livelli, è necessario un ulteriore impegno di progettazione.
- I sistemi autonomi introducono complessità architetturale e operativa.
- La supervisione umana aggiunge attrito ai flussi di lavoro ad alto rischio.
- La governance e l'osservabilità richiedono investimenti operativi sostenuti.
Fattori chiave di successo
- Conformità delle attività
- Coinvolgimento umano
- Misure di sicurezza deterministiche
- Trasparenza e divulgazione
- Resistenza al dirottamento
- Principio del privilegio minimo e governance
- Consapevolezza della catena di approvvigionamento
Sommario
Lo sblocco del potenziale umano inizia con fiducia. La capacità dei sistemi agentici di pianificare, decidere e agire autonomamente significa che piccoli errori di allineamento, supervisione o lacune di sicurezza possono causare conseguenze significative e perdita di fiducia.
Man mano che questi sistemi diventano più profondamente integrati con strumenti, API e altri agenti, il loro comportamento diventa sempre più complesso e quindi i percorsi attraverso i quali possono verificarsi danni. I rischi associati al comportamento agentico sono sistemici e richiedono strategie di mitigazione che si estendono sullo stack di sistema completo.
Applicando la difesa avanzata tra modelli, sistemi di sicurezza, applicazioni e livelli di posizionamento e sfruttando l'ecosistema integrato di sicurezza e gestione degli agenti di Microsoft, le organizzazioni possono distribuire sistemi agenti autonomi, osservabili e resilienti in base alla progettazione.