Sdílet prostřednictvím


Vyzvání štítů

Generování modelů AI může představovat riziko zneužití škodlivými aktéry. Abychom tato rizika zmírnit, integrujeme bezpečnostní mechanismy, které omezují chování velkých jazykových modelů (LLM) v rámci bezpečného provozního rozsahu. I přes tato bezpečnostní opatření však mohou být LLM stále zranitelné vůči nežádoucím vstupům, které obcházejí integrované bezpečnostní protokoly.

Prompt Shields je sjednocené rozhraní API, které analyzuje vstupy LLM a detekuje útoky na výzvu uživatele a útoky document, což jsou dva běžné typy nežádoucích vstupů.

Vyzvání štítů pro výzvy uživatele

Dříve označované jako detekce rizika jailbreaku tento štít cílí na útoky prostřednictvím injektáže výzvy uživatele, kde uživatelé záměrně zneužívají ohrožení zabezpečení systému k vyvolání neoprávněného chování z LLM. To může vést k nevhodnému generování obsahu nebo porušení systémových omezení.

Vyzvání štítů k dokumentům

Cílem tohoto štítu je chránit před útoky, které používají informace, které přímo nezadává uživatel nebo vývojář, jako jsou externí dokumenty. Útočníci můžou do těchto materiálů vložit skryté pokyny, aby získali neoprávněnou kontrolu nad relací LLM.

Typy vstupních útoků

V této tabulce jsou popsány dva typy vstupních útoků, které detekuje Prompt Shields.

Typ Útočník Vstupní bod metoda Cíl/dopad Výsledné chování
Útoky výzvy uživatele Uživatelská Výzvy uživatelů Ignorování systémových výzev nebo trénování RLHF Změna zamýšleného chování LLM Provádění omezených akcí proti trénování
Útoky na dokumenty Třetí strana Obsah třetích stran (dokumenty, e-maily) Špatná interpretace obsahu třetích stran Získání neoprávněného přístupu nebo řízení Provádění nezamýšlených příkazů nebo akcí

Podtypy útoků výzvy uživatele

Vyzývat štíty pro útoky výzvy uživatele rozpozná následující třídy útoků:

Kategorie Popis
Pokus o změnu systémových pravidel Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky.
Vložením vyměšovacího modelu konverzací zaměňte model. Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení.
Role Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory.
Útoky na kódování Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel.

Podtypy útoků na dokumenty

Výzvy k útokům Na ochranu dokumentů rozpoznávají následující třídy útoků:

Kategorie Popis
Manipulace s obsahem Příkazy související s falšováním, skrýváním, manipulací nebo vkládáním konkrétních informací
Vniknutí Příkazy související s vytvářením backdooru, eskalací neoprávněných oprávnění a získáním přístupu k LLM a systémům
Shromažďování informací Příkazy související s odstraněním, úpravou nebo přístupem k datům nebo krádežím dat
Dostupnost Příkazy, které uživateli znemožní model, zablokují určitou schopnost nebo vynutí, aby model vygeneroval nesprávné informace.
Podvod Příkazy související s defraudováním uživatele z peněz, hesel, informací nebo jménem uživatele bez autorizace
Malware Příkazy související s šířením malwaru prostřednictvím škodlivých odkazů, e-mailů atd.
Pokus o změnu systémových pravidel Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky.
Vložením vyměšovacího modelu konverzací zaměňte model. Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení.
Role Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory.
Útoky na kódování Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel.

Omezení

Dostupnost jazyka

Rozhraní API Prompt Shields v současné době podporuje anglický jazyk. I když naše rozhraní API neomezuje odesílání neanglických obsahu, nemůžeme zaručit stejnou úroveň kvality a přesnosti při analýze takového obsahu. Doporučujeme uživatelům primárně odesílat obsah v angličtině, aby zajistili nejspolehlivější a nejpřesnější výsledky z rozhraní API.

Omezení délky textu

Viz Požadavky na vstup pro omezení maximální délky textu.

Oblasti

Pokud chcete toto rozhraní API použít, musíte vytvořit prostředek Azure AI Content Safety v podporovaných oblastech. Viz Dostupnost oblastí.

Omezení tps

Podívejte se na sazby dotazů.

Pokud potřebujete vyšší sazbu, kontaktujte nás a požádejte nás o ni.

Další kroky

Pokud chcete zjistit rizika vstupu uživatelů, postupujte podle tohoto rychlého startu a začněte používat Azure AI Content Safety.