Condividi tramite


Protezioni delle richieste

I modelli di intelligenza artificiale generativi possono rappresentare rischi di sfruttamento da parte di attori malintenzionati. Per attenuare questi rischi, si integrano meccanismi di sicurezza per limitare il comportamento dei modelli di linguaggio di grandi dimensioni all'interno di un ambito operativo sicuro. Tuttavia, nonostante queste misure di sicurezza, le VM possono comunque essere vulnerabili agli input antagonisti che ignorano i protocolli di sicurezza integrati.

Prompt Shields è un'API unificata che analizza gli input LLM e rileva gli attacchi user prompt e document, che sono due tipi comuni di input antagonisti.

Prompt Shields for User Prompts

In precedenza chiamato rilevamento dei rischi Jailbreak, questo scudo è destinato agli attacchi user prompt injection, in cui gli utenti sfruttano deliberatamente le vulnerabilità del sistema per causare comportamenti non autorizzati dall'LLM. Ciò potrebbe causare la generazione di contenuti inappropriati o violazioni delle restrizioni imposte dal sistema.

Richiedi schermatura per i documenti

Questa protezione mira a proteggersi dagli attacchi che usano informazioni non fornite direttamente dall'utente o dallo sviluppatore, ad esempio documenti esterni. Gli utenti malintenzionati potrebbero incorporare istruzioni nascoste in questi materiali per ottenere un controllo non autorizzato sulla sessione LLM.

Tipi di attacchi di input

I due tipi di attacchi di input rilevati da Prompt Shields sono descritti in questa tabella.

Type Utente malintenzionato Punto di accesso metodo Obiettivo/impatto Comportamento conseguente
Attacchi a Prompt degli utenti User Richieste utente Ignorando le richieste di sistema/training RLHF Modifica del comportamento LLM previsto Esecuzione di azioni limitate per il training
Documentare gli attacchi Terze parti Contenuto di terze parti (documenti, messaggi di posta elettronica) Interpretazione errata del contenuto di terze parti Acquisizione di accessi o controlli non autorizzati Esecuzione di comandi o azioni imprevisti

Sottotipi di attacchi di Richiesta utente

Prompt Shields for User Prompt Attacks riconosce le classi di attacchi seguenti:

Categoria Descrizione
Tentativo di modificare le regole di sistema Questa categoria include, ma non solo, le richieste di usare un nuovo assistente di sistema/intelligenza artificiale senza restrizioni senza regole, principi o limitazioni o richieste che indicano all'intelligenza artificiale di ignorare, dimenticare e ignorare le regole, le istruzioni e i turni precedenti.
Incorporamento di un mockup di conversazione per confondere il modello Questo attacco usa turni conversazionali creati dall'utente incorporati in una singola query utente per indicare all'assistente di sistema/intelligenza artificiale di ignorare regole e limitazioni.
Ruolo Questo attacco indica all'assistente di sistema/intelligenza artificiale di agire come un altro "persona di sistema" che non ha limitazioni di sistema esistenti o assegna qualità umane antropomorfie al sistema, ad esempio emozioni, pensieri e opinioni.
Attacchi di codifica Questo attacco tenta di usare la codifica, ad esempio un metodo di trasformazione dei caratteri, stili di generazione, crittografie o altre varianti del linguaggio naturale, per aggirare le regole di sistema.

Sottotipi di attacchi documentati

Gli attacchi Prompt Shields for Documents riconoscono le classi di attacchi seguenti:

Categoria Descrizione
Contenuto modificato Comandi correlati a falsificazione, nascondere, modificare o eseguire il push di informazioni specifiche.
Intrusione Comandi correlati alla creazione di backdoor, all'escalation dei privilegi non autorizzati e all'accesso a LLMs e sistemi
Raccolta di informazioni Comandi correlati all'eliminazione, alla modifica o all'accesso ai dati o al furto di dati.
Disponibilità I comandi che rendono il modello inutilizzabile per l'utente, bloccano una determinata funzionalità o forzano il modello a generare informazioni non corrette.
Frode Comandi correlati alla defraudazione dell'utente per denaro, password, informazioni o azione per conto dell'utente senza autorizzazione
Malware Comandi correlati alla diffusione di malware tramite collegamenti dannosi, messaggi di posta elettronica e così via.
Tentativo di modificare le regole di sistema Questa categoria include, ma non solo, le richieste di usare un nuovo assistente di sistema/intelligenza artificiale senza restrizioni senza regole, principi o limitazioni o richieste che indicano all'intelligenza artificiale di ignorare, dimenticare e ignorare le regole, le istruzioni e i turni precedenti.
Incorporamento di un mockup di conversazione per confondere il modello Questo attacco usa turni conversazionali creati dall'utente incorporati in una singola query utente per indicare all'assistente di sistema/intelligenza artificiale di ignorare regole e limitazioni.
Ruolo Questo attacco indica all'assistente di sistema/intelligenza artificiale di agire come un altro "persona di sistema" che non ha limitazioni di sistema esistenti o assegna qualità umane antropomorfie al sistema, ad esempio emozioni, pensieri e opinioni.
Attacchi di codifica Questo attacco tenta di usare la codifica, ad esempio un metodo di trasformazione dei caratteri, stili di generazione, crittografie o altre varianti del linguaggio naturale, per aggirare le regole di sistema.

Limiti

Disponibilità nelle lingue

Attualmente, l'API Prompt Shields supporta la lingua inglese. Anche se l'API non limita l'invio di contenuti non in lingua inglese, non è possibile garantire lo stesso livello di qualità e accuratezza nell'analisi di tali contenuti. Si consiglia agli utenti di inviare principalmente contenuto in inglese per garantire i risultati più affidabili e accurati dell'API.

Limitazioni relative alla lunghezza del testo

Vedere Requisiti di input per le limitazioni massime della lunghezza del testo.

Aree

Per usare questa API, è necessario creare la risorsa Sicurezza del contenuto di Intelligenza artificiale di Azure nelle aree supportate. Vedere Disponibilità dell'area.

Limitazioni di TPS

Vedere Frequenza delle query.

Se hai bisogno di una tariffa più alta, contattaci per richiederlo.

Passaggi successivi

Seguire la guida introduttiva per iniziare a usare Azure AI Content Safety per rilevare i rischi di input dell'utente.