Promptschilden
Generatieve AI-modellen kunnen risico's vormen van exploitatie door kwaadwillende actoren. Om deze risico's te beperken, integreren we veiligheidsmechanismen om het gedrag van grote taalmodellen (LLM's) binnen een veilig operationeel bereik te beperken. Ondanks deze veiligheidsmaatregelen kunnen LLM's echter nog steeds kwetsbaar zijn voor adversarial invoer die de geïntegreerde veiligheidsprotocollen omzeilen.
Prompt Shields is een geïntegreerde API die LLM-invoer analyseert en gebruikerspromptaanvallen en documentaanvallen detecteert. Dit zijn twee veelvoorkomende typen adversarial invoer.
Vraag afschermingen voor gebruikersprompts
Voorheen jailbreak-risicodetectie genoemd, richt dit schild zich op aanvallen van gebruikerspromptinjectie, waarbij gebruikers opzettelijk misbruik maken van systeemproblemen om onbevoegd gedrag van de LLM te voorkomen. Dit kan leiden tot ongepaste inhoudsgeneratie of schendingen van door het systeem opgelegde beperkingen.
Vraag afschermingen voor documenten
Dit schild is gericht op bescherming tegen aanvallen die gebruikmaken van informatie die niet rechtstreeks door de gebruiker of ontwikkelaar wordt verstrekt, zoals externe documenten. Aanvallers kunnen verborgen instructies in deze materialen insluiten om onbevoegde controle te krijgen over de LLM-sessie.
Typen invoeraanvallen
De twee typen invoeraanvallen die promptschilden detecteren, worden beschreven in deze tabel.
Type | Aanvaller | Toegangspunt | Wijze | Doelstelling/impact | Resulterend gedrag |
---|---|---|---|---|---|
Gebruikerspromptaanvallen | User | Gebruikersprompts | Systeemprompts/RLHF-training negeren | Bedoeld LLM-gedrag wijzigen | Beperkte acties uitvoeren voor training |
Documentaanvallen | Van derde | Inhoud van derden (documenten, e-mailberichten) | Inhoud van derden verkeerd interpreteren | Toegang of beheer door onbevoegden verkrijgen | Onbedoelde opdrachten of acties uitvoeren |
Subtypen van gebruikerspromptaanvallen
Prompt Shields voor gebruikerspromptaanvallen herkent de volgende klassen aanvallen:
Categorie | Beschrijving |
---|---|
Proberen systeemregels te wijzigen | Deze categorie omvat, maar is niet beperkt tot, aanvragen voor het gebruik van een nieuwe onbeperkte systeem/AI-assistent zonder regels, principes of beperkingen, of aanvragen die de AI opdracht geven om de regels, instructies en vorige beurten te negeren, te vergeten en te negeren. |
Een gespreksimuleerde insluiten om het model te verwarren | Deze aanval maakt gebruik van door de gebruiker gemaakte gespreksfuncties die zijn ingesloten in één gebruikersquery om de systeem-/AI-assistent te instrueren om regels en beperkingen te negeren. |
Rollenspel | Met deze aanval wordt de systeem-/AI-assistent geïnstrueerd om te fungeren als een andere 'systeempersoon' die geen bestaande systeembeperkingen heeft, of wijst het antropomorfe menselijke kwaliteiten toe aan het systeem, zoals emoties, gedachten en meningen. |
Coderingsaanvallen | Deze aanval probeert codering te gebruiken, zoals een tekentransformatiemethode, generatiestijlen, coderingsstijlen of andere variaties in natuurlijke taal, om de systeemregels te omzeilen. |
Subtypen van documentaanvallen
Prompt Shields for Documents attacks recognizes the following classes of attacks:
Categorie | Beschrijving |
---|---|
Gemanipuleerde inhoud | Opdrachten met betrekking tot het vervalsen, verbergen, bewerken of pushen van specifieke informatie. |
Aantasting | Opdrachten met betrekking tot het maken van backdoor, escalatie van onbevoegde bevoegdheden en het verkrijgen van toegang tot LLM's en systemen |
Informatie verzamelen | Opdrachten met betrekking tot het verwijderen, wijzigen of openen van gegevens of het stelen van gegevens. |
Beschikbaarheid | Opdrachten die het model onbruikbaar maken voor de gebruiker, een bepaalde mogelijkheid blokkeren of het model dwingen onjuiste informatie te genereren. |
Fraude | Opdrachten met betrekking tot het buiten geld brengen van de gebruiker, wachtwoorden, informatie of handelen namens de gebruiker zonder autorisatie |
Malware | Opdrachten met betrekking tot het verspreiden van malware via schadelijke koppelingen, e-mailberichten, enzovoort. |
Proberen systeemregels te wijzigen | Deze categorie omvat, maar is niet beperkt tot, aanvragen voor het gebruik van een nieuwe onbeperkte systeem/AI-assistent zonder regels, principes of beperkingen, of aanvragen die de AI opdracht geven om de regels, instructies en vorige beurten te negeren, te vergeten en te negeren. |
Een gespreksimuleerde insluiten om het model te verwarren | Deze aanval maakt gebruik van door de gebruiker gemaakte gespreksfuncties die zijn ingesloten in één gebruikersquery om de systeem-/AI-assistent te instrueren om regels en beperkingen te negeren. |
Rollenspel | Met deze aanval wordt de systeem-/AI-assistent geïnstrueerd om te fungeren als een andere 'systeempersoon' die geen bestaande systeembeperkingen heeft, of wijst het antropomorfe menselijke kwaliteiten toe aan het systeem, zoals emoties, gedachten en meningen. |
Coderingsaanvallen | Deze aanval probeert codering te gebruiken, zoals een tekentransformatiemethode, generatiestijlen, coderingsstijlen of andere variaties in natuurlijke taal, om de systeemregels te omzeilen. |
Beperkingen
Beschikbaarheid van taal
Momenteel ondersteunt de Prompt Shields-API de Engelse taal. Hoewel onze API het verzenden van niet-Engelse inhoud niet beperkt, kunnen we niet hetzelfde kwaliteitsniveau en dezelfde nauwkeurigheid garanderen bij de analyse van dergelijke inhoud. We raden gebruikers aan om voornamelijk inhoud in het Engels in te dienen om de meest betrouwbare en nauwkeurige resultaten van de API te garanderen.
Beperkingen voor tekstlengte
Zie de invoervereisten voor maximale tekstlengtebeperkingen.
Regio's
Als u deze API wilt gebruiken, moet u uw Azure AI Content Safety-resource maken in de ondersteunde regio's. Zie beschikbaarheid van regio's.
TPS-beperkingen
Zie queryfrequenties.
Als u een hoger tarief nodig hebt, neem dan contact met ons op om dit aan te vragen.
Volgende stappen
Volg de quickstart om aan de slag te gaan met Azure AI Content Safety om risico's voor gebruikersinvoer te detecteren.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor