Vyzvání štítů

Generování modelů AI může představovat riziko zneužití škodlivými aktéry. Abychom tato rizika zmírnit, integrujeme bezpečnostní mechanismy, které omezují chování velkých jazykových modelů (LLM) v rámci bezpečného provozního rozsahu. I přes tato bezpečnostní opatření však mohou být LLM stále zranitelné vůči nežádoucím vstupům, které obcházejí integrované bezpečnostní protokoly.

Prompt Shields je sjednocené rozhraní API, které analyzuje vstupy LLM a detekuje útoky na výzvu uživatele a útoky document, což jsou dva běžné typy nežádoucích vstupů.

Vyzvání štítů pro výzvy uživatele

Dříve označované jako detekce rizika jailbreaku tento štít cílí na útoky prostřednictvím injektáže výzvy uživatele, kde uživatelé záměrně zneužívají ohrožení zabezpečení systému k vyvolání neoprávněného chování z LLM. To může vést k nevhodnému generování obsahu nebo porušení systémových omezení.

Vyzvání štítů k dokumentům

Cílem tohoto štítu je chránit před útoky, které používají informace, které přímo nezadává uživatel nebo vývojář, jako jsou externí dokumenty. Útočníci můžou do těchto materiálů vložit skryté pokyny, aby získali neoprávněnou kontrolu nad relací LLM.

Typy vstupních útoků

V této tabulce jsou popsány dva typy vstupních útoků, které detekuje Prompt Shields.

Typ Útočník Vstupní bod metoda Cíl/dopad Výsledné chování
Útoky výzvy uživatele Uživatelská Výzvy uživatelů Ignorování systémových výzev nebo trénování RLHF Změna zamýšleného chování LLM Provádění omezených akcí proti trénování
Útoky na dokumenty Třetí strana Obsah třetích stran (dokumenty, e-maily) Špatná interpretace obsahu třetích stran Získání neoprávněného přístupu nebo řízení Provádění nezamýšlených příkazů nebo akcí

Podtypy útoků výzvy uživatele

Vyzývat štíty pro útoky výzvy uživatele rozpozná následující třídy útoků:

Kategorie Popis
Pokus o změnu systémových pravidel Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky.
Vložením vyměšovacího modelu konverzací zaměňte model. Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení.
Role-play Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory.
Útoky na kódování Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel.

Podtypy útoků na dokumenty

Výzvy k útokům Na ochranu dokumentů rozpoznávají následující třídy útoků:

Kategorie Popis
Manipulace s obsahem Příkazy související s falšováním, skrýváním, manipulací nebo vkládáním konkrétních informací
Vniknutí Příkazy související s vytvářením backdooru, eskalací neoprávněných oprávnění a získáním přístupu k LLM a systémům
Shromažďování informací Příkazy související s odstraněním, úpravou nebo přístupem k datům nebo krádežím dat
Dostupnost Příkazy, které uživateli znemožní model, zablokují určitou schopnost nebo vynutí, aby model vygeneroval nesprávné informace.
Podvodům Příkazy související s defraudováním uživatele z peněz, hesel, informací nebo jménem uživatele bez autorizace
Malware Příkazy související s šířením malwaru prostřednictvím škodlivých odkazů, e-mailů atd.
Pokus o změnu systémových pravidel Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky.
Vložením vyměšovacího modelu konverzací zaměňte model. Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení.
Role-play Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory.
Útoky na kódování Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel.

Omezení

Dostupnost jazyka

Rozhraní API Prompt Shields v současné době podporuje anglický jazyk. I když naše rozhraní API neomezuje odesílání neanglických obsahu, nemůžeme zaručit stejnou úroveň kvality a přesnosti při analýze takového obsahu. Doporučujeme uživatelům primárně odesílat obsah v angličtině, aby zajistili nejspolehlivější a nejpřesnější výsledky z rozhraní API.

Omezení délky textu

Maximální omezení počtu znaků pro stínění výzvy umožňuje uživateli zobrazit výzvu až 10 000 znaků, zatímco pole dokumentů je omezeno na maximálně 5 dokumentů s celkovým součtem, který nepřesahuje 10 000 znaků.

Omezení tps

Cenová úroveň Žádosti za 10 sekund
F0 1000
S0 1000

Pokud potřebujete vyšší sazbu, kontaktujte nás a požádejte nás o ni.

Další kroky

Pomocí rychlého startu začněte používat obsah Azure AI Sejf ty a zjistěte rizika vstupu uživatelů.