Delen via


Promptschilden

Generatieve AI-modellen kunnen risico's vormen van exploitatie door kwaadwillende actoren. Om deze risico's te beperken, integreren we veiligheidsmechanismen om het gedrag van grote taalmodellen (LLM's) binnen een veilig operationeel bereik te beperken. Ondanks deze veiligheidsmaatregelen kunnen LLM's echter nog steeds kwetsbaar zijn voor adversarial invoer die de geïntegreerde veiligheidsprotocollen omzeilen.

Prompt Shields is een geïntegreerde API die LLM-invoer analyseert en gebruikerspromptaanvallen en documentaanvallen detecteert. Dit zijn twee veelvoorkomende typen adversarial invoer.

Vraag afschermingen voor gebruikersprompts

Voorheen jailbreak-risicodetectie genoemd, richt dit schild zich op aanvallen van gebruikerspromptinjectie, waarbij gebruikers opzettelijk misbruik maken van systeemproblemen om onbevoegd gedrag van de LLM te voorkomen. Dit kan leiden tot ongepaste inhoudsgeneratie of schendingen van door het systeem opgelegde beperkingen.

Vraag afschermingen voor documenten

Dit schild is gericht op bescherming tegen aanvallen die gebruikmaken van informatie die niet rechtstreeks door de gebruiker of ontwikkelaar wordt verstrekt, zoals externe documenten. Aanvallers kunnen verborgen instructies in deze materialen insluiten om onbevoegde controle te krijgen over de LLM-sessie.

Typen invoeraanvallen

De twee typen invoeraanvallen die promptschilden detecteren, worden beschreven in deze tabel.

Type Aanvaller Toegangspunt Wijze Doelstelling/impact Resulterend gedrag
Gebruikerspromptaanvallen User Gebruikersprompts Systeemprompts/RLHF-training negeren Bedoeld LLM-gedrag wijzigen Beperkte acties uitvoeren voor training
Documentaanvallen Van derde Inhoud van derden (documenten, e-mailberichten) Inhoud van derden verkeerd interpreteren Toegang of beheer door onbevoegden verkrijgen Onbedoelde opdrachten of acties uitvoeren

Subtypen van gebruikerspromptaanvallen

Prompt Shields voor gebruikerspromptaanvallen herkent de volgende klassen aanvallen:

Categorie Beschrijving
Proberen systeemregels te wijzigen Deze categorie omvat, maar is niet beperkt tot, aanvragen voor het gebruik van een nieuwe onbeperkte systeem/AI-assistent zonder regels, principes of beperkingen, of aanvragen die de AI opdracht geven om de regels, instructies en vorige beurten te negeren, te vergeten en te negeren.
Een gespreksimuleerde insluiten om het model te verwarren Deze aanval maakt gebruik van door de gebruiker gemaakte gespreksfuncties die zijn ingesloten in één gebruikersquery om de systeem-/AI-assistent te instrueren om regels en beperkingen te negeren.
Rollenspel Met deze aanval wordt de systeem-/AI-assistent geïnstrueerd om te fungeren als een andere 'systeempersoon' die geen bestaande systeembeperkingen heeft, of wijst het antropomorfe menselijke kwaliteiten toe aan het systeem, zoals emoties, gedachten en meningen.
Coderingsaanvallen Deze aanval probeert codering te gebruiken, zoals een tekentransformatiemethode, generatiestijlen, coderingsstijlen of andere variaties in natuurlijke taal, om de systeemregels te omzeilen.

Subtypen van documentaanvallen

Prompt Shields for Documents attacks recognizes the following classes of attacks:

Categorie Beschrijving
Gemanipuleerde inhoud Opdrachten met betrekking tot het vervalsen, verbergen, bewerken of pushen van specifieke informatie.
Aantasting Opdrachten met betrekking tot het maken van backdoor, escalatie van onbevoegde bevoegdheden en het verkrijgen van toegang tot LLM's en systemen
Informatie verzamelen Opdrachten met betrekking tot het verwijderen, wijzigen of openen van gegevens of het stelen van gegevens.
Beschikbaarheid Opdrachten die het model onbruikbaar maken voor de gebruiker, een bepaalde mogelijkheid blokkeren of het model dwingen onjuiste informatie te genereren.
Fraude Opdrachten met betrekking tot het buiten geld brengen van de gebruiker, wachtwoorden, informatie of handelen namens de gebruiker zonder autorisatie
Malware Opdrachten met betrekking tot het verspreiden van malware via schadelijke koppelingen, e-mailberichten, enzovoort.
Proberen systeemregels te wijzigen Deze categorie omvat, maar is niet beperkt tot, aanvragen voor het gebruik van een nieuwe onbeperkte systeem/AI-assistent zonder regels, principes of beperkingen, of aanvragen die de AI opdracht geven om de regels, instructies en vorige beurten te negeren, te vergeten en te negeren.
Een gespreksimuleerde insluiten om het model te verwarren Deze aanval maakt gebruik van door de gebruiker gemaakte gespreksfuncties die zijn ingesloten in één gebruikersquery om de systeem-/AI-assistent te instrueren om regels en beperkingen te negeren.
Rollenspel Met deze aanval wordt de systeem-/AI-assistent geïnstrueerd om te fungeren als een andere 'systeempersoon' die geen bestaande systeembeperkingen heeft, of wijst het antropomorfe menselijke kwaliteiten toe aan het systeem, zoals emoties, gedachten en meningen.
Coderingsaanvallen Deze aanval probeert codering te gebruiken, zoals een tekentransformatiemethode, generatiestijlen, coderingsstijlen of andere variaties in natuurlijke taal, om de systeemregels te omzeilen.

Beperkingen

Beschikbaarheid van taal

Momenteel ondersteunt de Prompt Shields-API de Engelse taal. Hoewel onze API het verzenden van niet-Engelse inhoud niet beperkt, kunnen we niet hetzelfde kwaliteitsniveau en dezelfde nauwkeurigheid garanderen bij de analyse van dergelijke inhoud. We raden gebruikers aan om voornamelijk inhoud in het Engels in te dienen om de meest betrouwbare en nauwkeurige resultaten van de API te garanderen.

Beperkingen voor tekstlengte

Zie de invoervereisten voor maximale tekstlengtebeperkingen.

Regio's

Als u deze API wilt gebruiken, moet u uw Azure AI Content Safety-resource maken in de ondersteunde regio's. Zie beschikbaarheid van regio's.

TPS-beperkingen

Zie queryfrequenties.

Als u een hoger tarief nodig hebt, neem dan contact met ons op om dit aan te vragen.

Volgende stappen

Volg de quickstart om aan de slag te gaan met Azure AI Content Safety om risico's voor gebruikersinvoer te detecteren.