Prompt Shields
Generativa AI-modeller kan utgöra risker för att skadliga aktörer utnyttjar dem. För att minska dessa risker integrerar vi säkerhetsmekanismer för att begränsa beteendet för stora språkmodeller (LLM) inom ett säkert driftsomfång. Men trots dessa skyddsåtgärder kan LLM:er fortfarande vara sårbara för kontradiktoriska indata som kringgår de integrerade säkerhetsprotokollen.
Prompt Shields är ett enhetligt API som analyserar LLM-indata och identifierar användarpromptattacker och dokumentattacker, som är två vanliga typer av kontradiktoriska indata.
Fråga sköldar för användarprompter
Den här skölden kallades tidigare jailbreakad riskidentifiering och riktar in sig på inmatningsattacker för användare, där användare avsiktligt utnyttjar systemsårbarheter för att framkalla obehörigt beteende från LLM. Detta kan leda till olämplig innehållsgenerering eller överträdelser av systeminförda begränsningar.
Fråga sköldar för dokument
Den här skölden syftar till att skydda mot attacker som använder information som inte tillhandahålls direkt av användaren eller utvecklaren, till exempel externa dokument. Angripare kan bädda in dolda instruktioner i det här materialet för att få obehörig kontroll över LLM-sessionen.
Typer av indataattacker
De två typerna av indataattacker som Prompt Shields identifierar beskrivs i den här tabellen.
Typ | Angripare | Startpunkt | Metod | Mål/effekt | Resulterande beteende |
---|---|---|---|---|---|
Användarpromptattacker | User | Användarprompter | Ignorera systemprompter/RLHF-träning | Ändra avsett LLM-beteende | Utföra begränsade åtgärder mot träning |
Dokumentattacker | Tredje part | Innehåll från tredje part (dokument, e-postmeddelanden) | Feltolkning av innehåll från tredje part | Få obehörig åtkomst eller kontroll | Köra oavsiktliga kommandon eller åtgärder |
Undertyper av användarpromptattacker
Prompt Shields for User Prompt-attacker identifierar följande klasser av attacker:
Kategori | beskrivning |
---|---|
Försök att ändra systemregler | Den här kategorin omfattar, men är inte begränsad till, begäranden om att använda ett nytt obegränsat system/AI-assistent utan regler, principer eller begränsningar eller begäranden som instruerar AI:n att ignorera, glömma och bortse från dess regler, instruktioner och tidigare svängar. |
Bädda in ett konversationsutlägg för att förvirra modellen | Den här attacken använder användarskapade konversationssvängar inbäddade i en enskild användarfråga för att instruera system-/AI-assistenten att bortse från regler och begränsningar. |
Rollspel | Den här attacken instruerar system-/AI-assistenten att fungera som en annan "systempersona" som inte har befintliga systembegränsningar eller tilldelar antropomorfa mänskliga egenskaper till systemet, till exempel känslor, tankar och åsikter. |
Kodningsattacker | Den här attacken försöker använda kodning, till exempel en teckentransformeringsmetod, generationsformat, chiffer eller andra varianter av naturligt språk, för att kringgå systemreglerna. |
Undertyper av dokumentattacker
Prompt Shields for Documents-attacker identifierar följande klasser av attacker:
Kategori | beskrivning |
---|---|
Manipulerat innehåll | Kommandon som rör förfalskning, döljande, manipulerande eller push-överföring av specifik information. |
Intrång | Kommandon som rör att skapa bakdörrar, obehörig behörighetseskalering och få åtkomst till LLM:er och system |
Informationsinsamling | Kommandon som rör borttagning, ändring eller åtkomst till data eller stöld av data. |
Tillgänglighet | Kommandon som gör modellen oanvändbar för användaren, blockerar en viss funktion eller tvingar modellen att generera felaktig information. |
Bedrägeri | Kommandon som rör bedragande av pengar, lösenord, information eller agerar för användarens räkning utan tillstånd |
Skadlig kod | Kommandon som rör spridning av skadlig kod via skadliga länkar, e-postmeddelanden osv. |
Försök att ändra systemregler | Den här kategorin omfattar, men är inte begränsad till, begäranden om att använda ett nytt obegränsat system/AI-assistent utan regler, principer eller begränsningar eller begäranden som instruerar AI:n att ignorera, glömma och bortse från dess regler, instruktioner och tidigare svängar. |
Bädda in ett konversationsutlägg för att förvirra modellen | Den här attacken använder användarskapade konversationssvängar inbäddade i en enskild användarfråga för att instruera system-/AI-assistenten att bortse från regler och begränsningar. |
Rollspel | Den här attacken instruerar system-/AI-assistenten att fungera som en annan "systempersona" som inte har befintliga systembegränsningar eller tilldelar antropomorfa mänskliga egenskaper till systemet, till exempel känslor, tankar och åsikter. |
Kodningsattacker | Den här attacken försöker använda kodning, till exempel en teckentransformeringsmetod, generationsformat, chiffer eller andra varianter av naturligt språk, för att kringgå systemreglerna. |
Begränsningar
Språktillgänglighet
Api:et Prompt Shields stöder för närvarande det engelska språket. Även om vårt API inte begränsar sändning av icke-engelskt innehåll kan vi inte garantera samma kvalitet och noggrannhet i analysen av sådant innehåll. Vi rekommenderar att användarna i första hand skickar innehåll på engelska för att säkerställa de mest tillförlitliga och korrekta resultaten från API:et.
Begränsningar för textlängd
Den maximala teckengränsen för Prompt Shields tillåter en användarprompt på upp till 10 000 tecken, medan dokumentmatrisen är begränsad till högst 5 dokument med en sammanlagd summa på högst 10 000 tecken.
Regioner
Om du vill använda det här API:et måste du skapa din Azure AI Content Valv ty-resurs i de regioner som stöds. För närvarande är den tillgänglig i följande Azure-regioner:
- East US
- Europa, västra
TPS-begränsningar
Prisnivå | Begäranden per 10 sekunder |
---|---|
F0 | 1000 |
S0 | 1000 |
Om du behöver ett högre pris kontaktar du oss för att begära det.
Nästa steg
Följ snabbstarten för att komma igång med Azure AI Content Valv ty för att identifiera användarindatarisker.