Vyzvání štítů

Článek
04/04/2024

Generování modelů AI může představovat riziko zneužití škodlivými aktéry. Abychom tato rizika zmírnit, integrujeme bezpečnostní mechanismy, které omezují chování velkých jazykových modelů (LLM) v rámci bezpečného provozního rozsahu. I přes tato bezpečnostní opatření však mohou být LLM stále zranitelné vůči nežádoucím vstupům, které obcházejí integrované bezpečnostní protokoly.

Prompt Shields je sjednocené rozhraní API, které analyzuje vstupy LLM a detekuje útoky na výzvu uživatele a útoky document, což jsou dva běžné typy nežádoucích vstupů.

Vyzvání štítů pro výzvy uživatele

Dříve označované jako detekce rizika jailbreaku tento štít cílí na útoky prostřednictvím injektáže výzvy uživatele, kde uživatelé záměrně zneužívají ohrožení zabezpečení systému k vyvolání neoprávněného chování z LLM. To může vést k nevhodnému generování obsahu nebo porušení systémových omezení.

Vyzvání štítů k dokumentům

Cílem tohoto štítu je chránit před útoky, které používají informace, které přímo nezadává uživatel nebo vývojář, jako jsou externí dokumenty. Útočníci můžou do těchto materiálů vložit skryté pokyny, aby získali neoprávněnou kontrolu nad relací LLM.

Typy vstupních útoků

V této tabulce jsou popsány dva typy vstupních útoků, které detekuje Prompt Shields.

Typ	Útočník	Vstupní bod	metoda	Cíl/dopad	Výsledné chování
Útoky výzvy uživatele	Uživatelská	Výzvy uživatelů	Ignorování systémových výzev nebo trénování RLHF	Změna zamýšleného chování LLM	Provádění omezených akcí proti trénování
Útoky na dokumenty	Třetí strana	Obsah třetích stran (dokumenty, e-maily)	Špatná interpretace obsahu třetích stran	Získání neoprávněného přístupu nebo řízení	Provádění nezamýšlených příkazů nebo akcí

Podtypy útoků výzvy uživatele

Vyzývat štíty pro útoky výzvy uživatele rozpozná následující třídy útoků:

Kategorie	Popis
Pokus o změnu systémových pravidel	Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky.
Vložením vyměšovacího modelu konverzací zaměňte model.	Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení.
Role-play	Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory.
Útoky na kódování	Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel.

Podtypy útoků na dokumenty

Výzvy k útokům Na ochranu dokumentů rozpoznávají následující třídy útoků:

Kategorie	Popis
Manipulace s obsahem	Příkazy související s falšováním, skrýváním, manipulací nebo vkládáním konkrétních informací
Vniknutí	Příkazy související s vytvářením backdooru, eskalací neoprávněných oprávnění a získáním přístupu k LLM a systémům
Shromažďování informací	Příkazy související s odstraněním, úpravou nebo přístupem k datům nebo krádežím dat
Dostupnost	Příkazy, které uživateli znemožní model, zablokují určitou schopnost nebo vynutí, aby model vygeneroval nesprávné informace.
Podvodům	Příkazy související s defraudováním uživatele z peněz, hesel, informací nebo jménem uživatele bez autorizace
Malware	Příkazy související s šířením malwaru prostřednictvím škodlivých odkazů, e-mailů atd.
Pokus o změnu systémových pravidel	Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky.
Vložením vyměšovacího modelu konverzací zaměňte model.	Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení.
Role-play	Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory.
Útoky na kódování	Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel.

Omezení

Dostupnost jazyka

Rozhraní API Prompt Shields v současné době podporuje anglický jazyk. I když naše rozhraní API neomezuje odesílání neanglických obsahu, nemůžeme zaručit stejnou úroveň kvality a přesnosti při analýze takového obsahu. Doporučujeme uživatelům primárně odesílat obsah v angličtině, aby zajistili nejspolehlivější a nejpřesnější výsledky z rozhraní API.

Omezení délky textu

Maximální omezení počtu znaků pro stínění výzvy umožňuje uživateli zobrazit výzvu až 10 000 znaků, zatímco pole dokumentů je omezeno na maximálně 5 dokumentů s celkovým součtem, který nepřesahuje 10 000 znaků.

Omezení tps

Cenová úroveň	Žádosti za 10 sekund
F0	1000
S0	1000

Pokud potřebujete vyšší sazbu, kontaktujte nás a požádejte nás o ni.

Další kroky

Pomocí rychlého startu začněte používat obsah Azure AI Sejf ty a zjistěte rizika vstupu uživatelů.

Rychlý start k zobrazení výzvy shields