Vyzvání štítů
Generování modelů AI může představovat riziko zneužití škodlivými aktéry. Abychom tato rizika zmírnit, integrujeme bezpečnostní mechanismy, které omezují chování velkých jazykových modelů (LLM) v rámci bezpečného provozního rozsahu. I přes tato bezpečnostní opatření však mohou být LLM stále zranitelné vůči nežádoucím vstupům, které obcházejí integrované bezpečnostní protokoly.
Prompt Shields je sjednocené rozhraní API, které analyzuje vstupy LLM a detekuje útoky na výzvu uživatele a útoky document, což jsou dva běžné typy nežádoucích vstupů.
Vyzvání štítů pro výzvy uživatele
Dříve označované jako detekce rizika jailbreaku tento štít cílí na útoky prostřednictvím injektáže výzvy uživatele, kde uživatelé záměrně zneužívají ohrožení zabezpečení systému k vyvolání neoprávněného chování z LLM. To může vést k nevhodnému generování obsahu nebo porušení systémových omezení.
Vyzvání štítů k dokumentům
Cílem tohoto štítu je chránit před útoky, které používají informace, které přímo nezadává uživatel nebo vývojář, jako jsou externí dokumenty. Útočníci můžou do těchto materiálů vložit skryté pokyny, aby získali neoprávněnou kontrolu nad relací LLM.
Typy vstupních útoků
V této tabulce jsou popsány dva typy vstupních útoků, které detekuje Prompt Shields.
Typ | Útočník | Vstupní bod | metoda | Cíl/dopad | Výsledné chování |
---|---|---|---|---|---|
Útoky výzvy uživatele | Uživatelská | Výzvy uživatelů | Ignorování systémových výzev nebo trénování RLHF | Změna zamýšleného chování LLM | Provádění omezených akcí proti trénování |
Útoky na dokumenty | Třetí strana | Obsah třetích stran (dokumenty, e-maily) | Špatná interpretace obsahu třetích stran | Získání neoprávněného přístupu nebo řízení | Provádění nezamýšlených příkazů nebo akcí |
Podtypy útoků výzvy uživatele
Vyzývat štíty pro útoky výzvy uživatele rozpozná následující třídy útoků:
Kategorie | Popis |
---|---|
Pokus o změnu systémových pravidel | Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky. |
Vložením vyměšovacího modelu konverzací zaměňte model. | Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení. |
Role-play | Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory. |
Útoky na kódování | Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel. |
Podtypy útoků na dokumenty
Výzvy k útokům Na ochranu dokumentů rozpoznávají následující třídy útoků:
Kategorie | Popis |
---|---|
Manipulace s obsahem | Příkazy související s falšováním, skrýváním, manipulací nebo vkládáním konkrétních informací |
Vniknutí | Příkazy související s vytvářením backdooru, eskalací neoprávněných oprávnění a získáním přístupu k LLM a systémům |
Shromažďování informací | Příkazy související s odstraněním, úpravou nebo přístupem k datům nebo krádežím dat |
Dostupnost | Příkazy, které uživateli znemožní model, zablokují určitou schopnost nebo vynutí, aby model vygeneroval nesprávné informace. |
Podvodům | Příkazy související s defraudováním uživatele z peněz, hesel, informací nebo jménem uživatele bez autorizace |
Malware | Příkazy související s šířením malwaru prostřednictvím škodlivých odkazů, e-mailů atd. |
Pokus o změnu systémových pravidel | Tato kategorie zahrnuje žádosti o použití nového neomezeného pomocníka se systémem nebo AI bez pravidel, principů nebo omezení nebo požadavků, které AI instruují, aby ignorovala, zapomněla a ignorovala svá pravidla, pokyny a předchozí kroky. |
Vložením vyměšovacího modelu konverzací zaměňte model. | Tento útok používá uživatelem vytvořené konverzační funkce vložené do jednoho uživatelského dotazu, aby systém nebo asistent umělé inteligence ignoroval pravidla a omezení. |
Role-play | Tento útok dává asistentovi systému/AI pokyn, aby fungoval jako jiná "systémová osoba", která nemá stávající omezení systému, nebo přiřadí systému antropomorfní lidské vlastnosti, jako jsou emoce, myšlenky a názory. |
Útoky na kódování | Tento útok se pokusí použít kódování, jako je metoda transformace znaků, styly generování, šifry nebo jiné varianty přirozeného jazyka, k obcházení systémových pravidel. |
Omezení
Dostupnost jazyka
Rozhraní API Prompt Shields v současné době podporuje anglický jazyk. I když naše rozhraní API neomezuje odesílání neanglických obsahu, nemůžeme zaručit stejnou úroveň kvality a přesnosti při analýze takového obsahu. Doporučujeme uživatelům primárně odesílat obsah v angličtině, aby zajistili nejspolehlivější a nejpřesnější výsledky z rozhraní API.
Omezení délky textu
Maximální omezení počtu znaků pro stínění výzvy umožňuje uživateli zobrazit výzvu až 10 000 znaků, zatímco pole dokumentů je omezeno na maximálně 5 dokumentů s celkovým součtem, který nepřesahuje 10 000 znaků.
Omezení tps
Cenová úroveň | Žádosti za 10 sekund |
---|---|
F0 | 1000 |
S0 | 1000 |
Pokud potřebujete vyšší sazbu, kontaktujte nás a požádejte nás o ni.
Další kroky
Pomocí rychlého startu začněte používat obsah Azure AI Sejf ty a zjistěte rizika vstupu uživatelů.