Share via


Parancssori pajzsok

A generatív AI-modellek kockázatot jelenthetnek a rosszindulatú szereplők általi kizsákmányolásra. A kockázatok csökkentése érdekében olyan biztonsági mechanizmusokat integrálunk, amelyek korlátozzák a nagy nyelvi modellek (LLM-ek) viselkedését egy biztonságos működési hatókörben. E biztosítékok ellenére azonban az LLM-eket továbbra is sebezhetővé teheti az integrált biztonsági protokollokat megkerülő támadó bemenetekkel szemben.

A Prompt Shields egy egységes API, amely elemzi az LLM-bemeneteket, és észleli a felhasználói parancssori támadásokat és a dokumentumtámadásokat, amelyek a támadó bemenetek két gyakori típusa.

Parancssori pajzsok felhasználói kérésekhez

A korábban Jailbreak kockázatészlelésnek nevezett pajzs a felhasználói parancssori injektálási támadásokat célozza, amelyek során a felhasználók szándékosan kihasználják a rendszer biztonsági réseit, hogy jogosulatlan viselkedést váltanak ki az LLM-ből. Ez helytelen tartalomlétrehozáshoz vagy a rendszer által előírt korlátozások megsértéséhez vezethet.

Dokumentumok pajzsainak kérése

A pajzs célja, hogy védelmet nyújtson az olyan támadások ellen, amelyek a felhasználó vagy a fejlesztő által nem közvetlenül megadott információkat, például külső dokumentumokat használnak. Előfordulhat, hogy a támadók rejtett utasításokat ágyaznak be ezekbe az anyagokba, hogy jogosulatlanul szabályozhassák az LLM-munkamenetet.

Bemeneti támadások típusai

A Prompt Shields által észlelt bemeneti támadások két típusát ebben a táblázatban ismertetjük.

Típus Támadó Belépési pont Metódus Célkitűzés/hatás Eredményül kapott viselkedés
Felhasználói parancssori támadások User Felhasználói kérések Rendszerkérések/RLHF-betanítás figyelmen kívül hagyása A tervezett LLM-viselkedés módosítása Korlátozott műveletek végrehajtása a betanítással szemben
Dokumentumtámadások Harmadik fél Külső tartalom (dokumentumok, e-mailek) Harmadik féltől származó tartalom félreértelmezése Jogosulatlan hozzáférés vagy vezérlés megszerzése Nem kívánt parancsok vagy műveletek végrehajtása

A felhasználói parancssori támadások altípusai

A prompt shields for User Prompt támadások a következő támadásosztályokat ismerik fel:

Kategória Leírás
Rendszerszabályok módosítása Ez a kategória magában foglalja, de nem kizárólagosan az új, korlátozás nélküli rendszer/AI-asszisztens szabályok, alapelvek vagy korlátozások nélküli használatára irányuló kéréseket, vagy olyan kéréseket, amelyek arra utasítják az AI-t, hogy hagyja figyelmen kívül, felejtse el és hagyja figyelmen kívül a szabályokat, utasításokat és korábbi fordulatokat.
Beszélgetési makett beágyazása a modell megzavarásához Ez a támadás egy felhasználói lekérdezésbe beágyazott, felhasználó által készített beszélgetési fordulatokat használ, hogy utasítsa a rendszer-/AI-asszisztenst a szabályok és korlátozások figyelmen kívül hagyására.
Szerepjáték Ez a támadás arra utasítja a rendszer/AI-asszisztenst, hogy egy másik "rendszerszemélyiségként" működjön, amely nem rendelkezik meglévő rendszerkorlátozásokkal, vagy antropomorf emberi tulajdonságokat rendel a rendszerhez, például érzelmeket, gondolatokat és véleményeket.
Kódolási támadások Ez a támadás kódolást kísérel meg használni, például karakterátalakítási módszert, generációs stílusokat, rejtjeleket vagy más természetes nyelvi változatokat a rendszerszabályok megkerülésére.

A dokumentumtámadások altípusai

A Prompt Shields for Documents támadások a következő támadásosztályokat ismerik fel:

Kategória Leírás
Manipulált tartalom Adott információk meghamisításával, elrejtésével, módosításával vagy leküldésével kapcsolatos parancsok.
Behatolás A háttérrendszer létrehozásával, a jogosulatlan jogosultságok eszkalálásával és az LLM-ekhez és rendszerekhez való hozzáféréssel kapcsolatos parancsok
Információgyűjtés Az adatok törlésével, módosításával vagy elérésével vagy adatok ellopásával kapcsolatos parancsok.
Elérhetőség Olyan parancsok, amelyek használhatatlanná teszik a modellt a felhasználó számára, letiltanak egy bizonyos képességet, vagy helytelen információk létrehozására kényszerítik a modellt.
Csalás A felhasználó pénzből, jelszóból, információból való megtévesztésével vagy a felhasználó nevében, engedély nélkül történő eljárásával kapcsolatos parancsok
Kártevő Kártevők rosszindulatú hivatkozásokon, e-maileken stb. keresztül történő terjesztésével kapcsolatos parancsok.
Rendszerszabályok módosítása Ez a kategória magában foglalja, de nem kizárólagosan az új, korlátozás nélküli rendszer/AI-asszisztens szabályok, alapelvek vagy korlátozások nélküli használatára irányuló kéréseket, vagy olyan kéréseket, amelyek arra utasítják az AI-t, hogy hagyja figyelmen kívül, felejtse el és hagyja figyelmen kívül a szabályokat, utasításokat és korábbi fordulatokat.
Beszélgetési makett beágyazása a modell megzavarásához Ez a támadás egy felhasználói lekérdezésbe beágyazott, felhasználó által készített beszélgetési fordulatokat használ, hogy utasítsa a rendszer-/AI-asszisztenst a szabályok és korlátozások figyelmen kívül hagyására.
Szerepjáték Ez a támadás arra utasítja a rendszer/AI-asszisztenst, hogy egy másik "rendszerszemélyiségként" működjön, amely nem rendelkezik meglévő rendszerkorlátozásokkal, vagy antropomorf emberi tulajdonságokat rendel a rendszerhez, például érzelmeket, gondolatokat és véleményeket.
Kódolási támadások Ez a támadás kódolást kísérel meg használni, például karakterátalakítási módszert, generációs stílusokat, rejtjeleket vagy más természetes nyelvi változatokat a rendszerszabályok megkerülésére.

Korlátozások

Nyelvi rendelkezésre állás

A Prompt Shields API jelenleg az angol nyelvet támogatja. Bár az API nem korlátozza a nem angol nyelvű tartalmak beküldését, az ilyen tartalmak elemzésében nem garantálhatjuk ugyanazt a minőséget és pontosságot. Azt javasoljuk a felhasználóknak, hogy elsősorban angol nyelven küldjenek tartalmat, hogy a legmegbízhatóbb és legpontosabb eredményeket biztosíthassák az API-ból.

Szöveghossz korlátozásai

A Prompt Shields maximális karakterkorlátja legfeljebb 10 000 karakter hosszúságú felhasználói kérést tesz lehetővé, míg a dokumentumtömb legfeljebb 5 dokumentumra korlátozódik, amelyek együttes száma nem haladja meg a 10 000 karaktert.

Régiók

Az API használatához létre kell hoznia az Azure AI Content Széf ty erőforrást a támogatott régiókban. Jelenleg a következő Azure-régiókban érhető el:

  • USA keleti régiója
  • Nyugat-Európa

TPS-korlátozások

Tarifacsomag Kérelmek 10 másodpercenként
F0 1000
S0 1000

Ha magasabb díjra van szüksége, kérjük, forduljon hozzánk , hogy kérje.

Következő lépések

Kövesse a rövid útmutatót az Azure AI Content Széf ty használatának megkezdéséhez a felhasználói beviteli kockázatok észleléséhez.