Identificare il rischio per i sistemi di intelligenza artificiale autonomi e agentivi

Nome pilastro: Monitorare e rilevare le minacce
Nome del modello: Ridurre il rischio dei sistemi di intelligenza artificiale autonomi

Contesto e problema

I sistemi di IA agenti autonomi possono pianificare, eseguire e adattare azioni verso obiettivi anziché rispondere a una singola richiesta. Poiché potrebbero richiamare strumenti, chiamare API, accedere ai dati e coordinare i servizi, possono produrre effetti reali con un intervento umano limitato. Questa autonomia aumenta sia l'impatto degli errori che l'attrattiva del sistema agli avversari. Ogni interazione da agente a strumento, da agente a servizio e da agente a agente espande la superficie di attacco e può introdurre rischi come attacchi di inserimento di richieste indirette, azioni impreviste o esfiltrazione di dati.

I rischi seguenti (anche se non esaustivi) emergono comunemente nei sistemi di intelligenza artificiale agentic autonomi.

Rischi di progettazione

  • Conformità delle attività: L'agente esegue azioni che non sono allineate all'attività, al piano o all'obiettivo desiderato dell'utente.
  • Supervisione e controllo umano: Il sistema non dispone di punti significativi per la revisione, l'approvazione, la correzione o l'interruzione del comportamento autonomo.
  • Intelligibilità del sistema: Gli utenti non hanno visibilità su ciò che l'agente sta facendo, prevede di fare o ha già fatto.
  • Trasparenza e divulgazione: Gli utenti o i destinatari downstream non sono consapevoli che interagiscono con un sistema di intelligenza artificiale o riscontrano azioni/output generati dall'intelligenza artificiale.

Rischi per la sicurezza

  • Hijacking dell'agente: Gli input dannosi o non attendibili dirottano i richiami dello strumento a causa di confini sfumati tra dati e istruzioni.
  • Perdita di dati sensibili: I dati riservati, proprietari o personali vengono esposti tramite output, log, memoria o azioni downstream.
  • Compromissione della catena di approvvigionamento: Le vulnerabilità vengono introdotte tramite modelli, strumenti, plug-in, dati di base o altre dipendenze dell'agente.
  • Sprawl dell'agente: Gli agenti non gestiti o con autorizzazioni eccessive si moltiplicano, aumentando i rischi per la sicurezza e riducendo la supervisione IT.

Affrontare questi rischi richiede sia principi di progettazione fondamentali che mitigazioni specifiche del rischio, applicati in modo coerente nel ciclo di vita dell'agente.

Soluzione

Ridurre i rischi nei sistemi di intelligenza artificiale autonomi basati su agenti combinando i pilastri fondamentali del design (come si comporta l'agente e come gli utenti mantengono il controllo) con mitigazioni mirate per la sicurezza e la governance (come il sistema resiste agli attacchi e scala in modo sicuro). I pilastri seguenti costituiscono la base per la progettazione responsabile del sistema agentico per affrontare queste minacce. Si applicano in tutti i casi d'uso agenti e aiutano a mitigare più rischi contemporaneamente.

Pilastri fondamentali della progettazione

Conformità delle attività

L'adesione inadeguata alle attività si verifica quando un agente esegue azioni che non sono completamente allineate con l'attività, il piano o l'obiettivo previsto dall'utente. Un agente può aver interpretato erroneamente la finalità, ignorare i passaggi necessari o perseguire un obiettivo dedotto che l'utente non ha autorizzato.

Per gestire questo rischio:

  • Definire lo scopo e i limiti di sistema chiari in modo che l'agente interpreti in modo affidabile la finalità ed esepre solo le azioni desiderate.
  • Usare controlli deterministici per bloccare le azioni non consentite indipendentemente dall'output del modello.
  • Applicare privilegi minimi e azione minima. Consentire solo gli strumenti, i dati e le operazioni minimi necessari. Nega tutto il resto per impostazione predefinita.
  • Comunicare sulle attività che comportano rischi elevati e sul modo in cui il sistema gestisce tale rischio, per evitare l'eccessiva dipendenza.

Supervisione e controllo umano

La supervisione umana significa fornire agli utenti un controllo significativo per guidare, correggere e interrompere il comportamento autonomo, soprattutto quando l'input è ambiguo, le azioni sono ad alto impatto o la manipolazione antagonista è possibile.

Per gestire questo rischio:

  • Consentire agli utenti di impostare limiti per gli agenti che possono accedere, eseguire e ricordare.
  • Richiedere l'approvazione per azioni ad alto rischio o irreversibili.
  • Fornire meccanismi affidabili a livello di sistema per sospendere o arrestare gli agenti in modo sicuro e immediato.
  • Applicare i criteri dell'organizzazione e le preferenze degli utenti in modo coerente tra le esecuzioni.

Intelligibilità del sistema di intelligenza artificiale

Intelligibility significa che il sistema mostra cosa prevede di eseguire, fornisce feedback durante l'esecuzione e riepiloga ciò che è successo, inclusi gli strumenti e i dati usati. Senza visibilità, gli utenti non possono annullare errori, rispondere agli eventi imprevisti o migliorare i risultati.

Per progettare per l'intelligibilità del sistema:

  • Mostra le azioni pianificate prima dell'esecuzione, soprattutto per i passaggi ad alto rischio o irreversibile.
  • Fornire lo stato in tempo reale e lo stato di avanzamento in modo che gli utenti possano tenere traccia del comportamento durante lo svolgimento.
  • Riepilogare i risultati: cosa è successo, decisioni chiave e cosa l'agente ha usato per arrivarci.
  • Mantenere i log di post-esecuzione accessibili che registrano azioni, strumenti e risultati per il controllo e la risposta agli eventi imprevisti.

Trasparenza e divulgazione

I sistemi agenti autonomi potrebbero agire dietro le quinte e influenzare le persone che non hanno avviato l'interazione. La divulgazione chiara imposta le aspettative, riduce la confusione e supporta un uso più sicuro.

Per rendere trasparenti e comprensibili le interazioni:

  • Indicare chiaramente quando gli utenti interagiscono con un sistema di intelligenza artificiale, in particolare in domini ad alto rischio o contesti downstream.
  • Spiegare lo scopo del sistema, i limiti e le operazioni che può e non può fare.
  • Limitazioni della superficie e incertezza in modo che gli utenti possano calibrare la fiducia in modo appropriato.
  • Assicurarsi che i destinatari downstream possano riconoscere output o azioni generati dall'intelligenza artificiale e comprenderne la provenienza.

Rischi di sicurezza e governance sistemici

Dirottamento dell'agente

Il dirottamento dell'agente si verifica quando input maligni o inaffidabili manipolano il ragionamento o l'esecuzione degli strumenti dell'agente. Nei sistemi agentic, la separazione ambigua tra dati e istruzioni può consentire attacchi cross-prompt injection per reindirizzare chiamate o flussi di lavoro degli strumenti.

Per gestire il rischio di dirottamento degli agenti:

  • Considera tutti gli input esterni (inclusi i contenuti recuperati e gli output degli strumenti) come non attendibili per impostazione predefinita.
  • Applicare una stretta separazione tra istruzioni, dati, memoria e parametri degli strumenti.
  • Filtra gli input per rilevare e bloccare i modelli dannosi prima di raggiungere i percorsi di esecuzione degli strumenti o del ragionamento dell'agente.
  • Implementare gli strumenti allowlist e convalidare i parametri in modo deterministico prima dell'esecuzione.
  • Ridurre al minimo l'istruzione implicita basando il comportamento dell'agente su regole esplicite definite dal sistema anziché su intento dedotto.

Perdita di dati sensibili

La perdita di dati sensibili si verifica quando vengono esposte informazioni riservate, proprietarie o personali tramite output, log, memoria o azioni downstream. Il rischio aumenta quando gli agenti si aggregano tra più origini o mantengono un contesto di lunga durata.

Per gestire il rischio di perdita di dati sensibili:

  • Applicare privilegi minimi alle identità dell'agente e alle origini dati, concedere l'accesso solo per l'attività corrente.
  • Classificare e gestire i dati sensibili e applicare regole deterministiche per l'uso, la conservazione e l'output.
  • Limitare la memoria di lunga durata e rendere persistenti solo gli elementi necessari e regolati in modo esplicito.
  • Monitorare e filtrare output e log per rilevare e impedire la divulgazione non autorizzata.

Compromissione della catena di approvvigionamento

La compromissione della supply chain si verifica quando vengono introdotte vulnerabilità tramite modelli, strumenti, plug-in, dati di base o altre dipendenze. La debolezza in qualsiasi componente può propagarsi nel processo decisionale e nell'esecuzione autonomi.

Per attenuare il rischio della catena di approvvigionamento:

  • Inventariare tutti i modelli, gli strumenti, i plug-in e le origini dati usate dagli agenti ed esaminarli come parte del limite di sicurezza.
  • Applicare il controllo delle versioni e il controllo delle modifiche in modo che gli aggiornamenti siano intenzionali e verificabili.
  • Isolare i componenti per ridurre il raggio dell'esplosione e prevenire errori a catena.
  • Monitorare le anomalie che potrebbero indicare la compromissione delle dipendenze o l'avvelenamento dei dati.
  • Si supponga che i singoli componenti possano non riuscire e progettare controlli di compensazione di conseguenza.

Espansione dell'agente

Lo sprawl degli agenti è la proliferazione incontrollata di agenti non gestiti o con autorizzazioni eccessive. Lo sprawl espande la superficie di attacco, indebolisce il privilegio minimo e riduce la responsabilità e la visibilità IT.

Per attenuare la dispersione degli agenti:

  • Inventariare tutti i modelli, gli strumenti, i plug-in e le origini dati usate dagli agenti ed esaminarli come parte del limite di sicurezza.
  • Attribuire una chiara assegnazione di proprietà e responsabilità per ogni agente, incluso un team o un individuo responsabile.
  • Applicare la governance del ciclo di vita dell'agente, tra cui registrazione, approvazione, scadenza e rimozione delle autorizzazioni.
  • Applicare privilegi minimi per impostazione predefinita, concedendo a ogni agente solo le autorizzazioni minime, gli strumenti e l'accesso ai dati necessari per il proprio ruolo.
  • Assegnare identità univoche controllabili agli agenti per abilitare l'autorizzazione, l'applicazione dei criteri e la tracciabilità.

Linee guida

Le organizzazioni che cercano di adottare questo modello possono applicare le procedure praticabili seguenti.

Categoria di pratica Azioni consigliate risorsa
Responsabilità condivisa La supervisione umana consente alle organizzazioni di rimanere responsabili per il comportamento degli agenti. Modello di responsabilità condivisa di intelligenza artificiale
Scelte del modello La selezione del modello è un controllo di base e una decisione chiave della supply chain nei sistemi agenti. Le scelte dei modelli intenzionali consentono di sbloccare agenti più sicuri e intelligenti Catalogo dei modelli di Microsoft Foundry
Sicurezza dei contenuti e conformità alle attività Rilevare e bloccare input dannosi o manipolativi, inclusi gli attacchi di iniezione indiretta dei prompt Analizzatori di rischi e sicurezza di Microsoft Foundry
Monitoraggio uso improprio Monitorare i modelli di uso improprio, i tentativi di bypass ripetuti o il comportamento anomalo dell'agente Monitoraggio degli abusi di Azure OpenAI di Microsoft Foundry
Identità dell'agente Applicare privilegi minimi, isolamento, gestione del ciclo di vita e auditabilità per prevenire la proliferazione degli agenti ID agente Microsoft Entra
Governance delle dipendenze Inventario, convalida, versione e monitoraggio di modelli, strumenti, plug-in e origini dati usate dagli agenti Catalogo dei modelli di Microsoft Foundry
Progettazione centrata dall'uomo Consentire agli utenti di comprendere le funzionalità e le limitazioni dell'agente, la supervisione umana e ridurre l'uso improprio e l'eccessiva dipendenza Secure by Design UX Toolkit

Risultati

Vantaggi

  • Gli agenti vengono eseguiti solo nell'ambito di intenti, autorizzazioni e limiti definiti.
  • Gli utenti possono esaminare, approvare e interrompere azioni ad alto rischio.
  • Il comportamento del sistema è osservabile e controllabile tramite piani, commenti e log chiari.
  • L'esposizione dei dati sensibili viene ridotta tramite privilegi minimi, governance e monitoraggio.
  • Le organizzazioni mantengono visibilità e controllo mentre l'utilizzo dell'agente si espande tra team e strumenti.
  • Gli utenti creano e mantengono la fiducia nel comportamento del sistema.

Compromessi

  • Sono necessari ulteriori sforzi di progettazione e ingegneria per creare misure di sicurezza deterministiche, supervisione e registrazione dei log.
  • I sistemi multi-agente aumentano la complessità e moltiplicano le opportunità per interazioni e risultati imprevisti.
  • La divulgazione e l'intelligibilità chiare richiedono la pianificazione intenzionale dell'esperienza utente e possono aggiungere attriti ai flussi di lavoro.

Fattori chiave di successo

  • Conformità delle attività: L'agente esegue azioni come previsto.
  • Coinvolgimento umano: Gli esseri umani rimangono responsabili di azioni agente ad alto impatto o ambiguo.
  • Misure di sicurezza deterministiche: Le azioni non consentite vengono bloccate in modo affidabile indipendentemente dal comportamento del modello.
  • Trasparenza e divulgazione: Gli utenti e i destinatari downstream comprendono quando gli agenti agiscono e cosa usano.
  • Sequestro dell'agente: Gli agenti hanno difese a più livelli per attenuare l'iniezione indiretta di prompt, vengono monitorati per gli eventi imprevisti e vengono configurati per l'arresto sicuro.
  • Privilegi minimi e governance: Le identità, le autorizzazioni e i cicli di vita degli agenti vengono gestiti per evitare la dispersione.
  • Consapevolezza della catena di approvvigionamento: I modelli, gli strumenti e le origini dati vengono considerati come dipendenze di sicurezza.

Sommario

I sistemi di intelligenza artificiale agentic autonomi espandono ciò che può fare il software abilitato per l'intelligenza artificiale, ma la loro autonomia amplifica i rischi. Pilastri fondamentali della progettazione: conformità delle attività, supervisione umana, intelligibilità del sistema e divulgazione, aiutano a mantenere gli agenti allineati con finalità e utenti sotto controllo. I rischi sistemici, come il dirottamento dell'agente, la fuga di dati sensibili, la compromissione della supply chain e l'espansione dell'agente, richiedono la messa in atto di mitigazioni mirate basate sui principi di privilegi minimi, barriere deterministiche, governance e monitoraggio. Con difese a più livelli e chiara responsabilità, le organizzazioni possono ridimensionare sistemi agentici che sono autonomi, osservabili e resilienti per design.