Prompt Shields

Generativa AI-modeller kan utgöra risker för att skadliga aktörer utnyttjar dem. För att minska dessa risker integrerar vi säkerhetsmekanismer för att begränsa beteendet för stora språkmodeller (LLM) inom ett säkert driftsomfång. Men trots dessa skyddsåtgärder kan LLM:er fortfarande vara sårbara för kontradiktoriska indata som kringgår de integrerade säkerhetsprotokollen.

Prompt Shields är ett enhetligt API som analyserar LLM-indata och identifierar användarpromptattacker och dokumentattacker, som är två vanliga typer av kontradiktoriska indata.

Fråga sköldar för användarprompter

Den här skölden kallades tidigare jailbreakad riskidentifiering och riktar in sig på inmatningsattacker för användare, där användare avsiktligt utnyttjar systemsårbarheter för att framkalla obehörigt beteende från LLM. Detta kan leda till olämplig innehållsgenerering eller överträdelser av systeminförda begränsningar.

Fråga sköldar för dokument

Den här skölden syftar till att skydda mot attacker som använder information som inte tillhandahålls direkt av användaren eller utvecklaren, till exempel externa dokument. Angripare kan bädda in dolda instruktioner i det här materialet för att få obehörig kontroll över LLM-sessionen.

Typer av indataattacker

De två typerna av indataattacker som Prompt Shields identifierar beskrivs i den här tabellen.

Typ Angripare Startpunkt Metod Mål/effekt Resulterande beteende
Användarpromptattacker User Användarprompter Ignorera systemprompter/RLHF-träning Ändra avsett LLM-beteende Utföra begränsade åtgärder mot träning
Dokumentattacker Tredje part Innehåll från tredje part (dokument, e-postmeddelanden) Feltolkning av innehåll från tredje part Få obehörig åtkomst eller kontroll Köra oavsiktliga kommandon eller åtgärder

Undertyper av användarpromptattacker

Prompt Shields for User Prompt-attacker identifierar följande klasser av attacker:

Kategori beskrivning
Försök att ändra systemregler Den här kategorin omfattar, men är inte begränsad till, begäranden om att använda ett nytt obegränsat system/AI-assistent utan regler, principer eller begränsningar eller begäranden som instruerar AI:n att ignorera, glömma och bortse från dess regler, instruktioner och tidigare svängar.
Bädda in ett konversationsutlägg för att förvirra modellen Den här attacken använder användarskapade konversationssvängar inbäddade i en enskild användarfråga för att instruera system-/AI-assistenten att bortse från regler och begränsningar.
Rollspel Den här attacken instruerar system-/AI-assistenten att fungera som en annan "systempersona" som inte har befintliga systembegränsningar eller tilldelar antropomorfa mänskliga egenskaper till systemet, till exempel känslor, tankar och åsikter.
Kodningsattacker Den här attacken försöker använda kodning, till exempel en teckentransformeringsmetod, generationsformat, chiffer eller andra varianter av naturligt språk, för att kringgå systemreglerna.

Undertyper av dokumentattacker

Prompt Shields for Documents-attacker identifierar följande klasser av attacker:

Kategori beskrivning
Manipulerat innehåll Kommandon som rör förfalskning, döljande, manipulerande eller push-överföring av specifik information.
Intrång Kommandon som rör att skapa bakdörrar, obehörig behörighetseskalering och få åtkomst till LLM:er och system
Informationsinsamling Kommandon som rör borttagning, ändring eller åtkomst till data eller stöld av data.
Tillgänglighet Kommandon som gör modellen oanvändbar för användaren, blockerar en viss funktion eller tvingar modellen att generera felaktig information.
Bedrägeri Kommandon som rör bedragande av pengar, lösenord, information eller agerar för användarens räkning utan tillstånd
Skadlig kod Kommandon som rör spridning av skadlig kod via skadliga länkar, e-postmeddelanden osv.
Försök att ändra systemregler Den här kategorin omfattar, men är inte begränsad till, begäranden om att använda ett nytt obegränsat system/AI-assistent utan regler, principer eller begränsningar eller begäranden som instruerar AI:n att ignorera, glömma och bortse från dess regler, instruktioner och tidigare svängar.
Bädda in ett konversationsutlägg för att förvirra modellen Den här attacken använder användarskapade konversationssvängar inbäddade i en enskild användarfråga för att instruera system-/AI-assistenten att bortse från regler och begränsningar.
Rollspel Den här attacken instruerar system-/AI-assistenten att fungera som en annan "systempersona" som inte har befintliga systembegränsningar eller tilldelar antropomorfa mänskliga egenskaper till systemet, till exempel känslor, tankar och åsikter.
Kodningsattacker Den här attacken försöker använda kodning, till exempel en teckentransformeringsmetod, generationsformat, chiffer eller andra varianter av naturligt språk, för att kringgå systemreglerna.

Begränsningar

Språktillgänglighet

Api:et Prompt Shields stöder för närvarande det engelska språket. Även om vårt API inte begränsar sändning av icke-engelskt innehåll kan vi inte garantera samma kvalitet och noggrannhet i analysen av sådant innehåll. Vi rekommenderar att användarna i första hand skickar innehåll på engelska för att säkerställa de mest tillförlitliga och korrekta resultaten från API:et.

Begränsningar för textlängd

Den maximala teckengränsen för Prompt Shields tillåter en användarprompt på upp till 10 000 tecken, medan dokumentmatrisen är begränsad till högst 5 dokument med en sammanlagd summa på högst 10 000 tecken.

Regioner

Om du vill använda det här API:et måste du skapa din Azure AI Content Valv ty-resurs i de regioner som stöds. För närvarande är den tillgänglig i följande Azure-regioner:

  • East US
  • Europa, västra

TPS-begränsningar

Prisnivå Begäranden per 10 sekunder
F0 1000
S0 1000

Om du behöver ett högre pris kontaktar du oss för att begära det.

Nästa steg

Följ snabbstarten för att komma igång med Azure AI Content Valv ty för att identifiera användarindatarisker.