Parancssori pajzsok
A generatív AI-modellek kockázatot jelenthetnek a rosszindulatú szereplők általi kizsákmányolásra. A kockázatok csökkentése érdekében olyan biztonsági mechanizmusokat integrálunk, amelyek korlátozzák a nagy nyelvi modellek (LLM-ek) viselkedését egy biztonságos működési hatókörben. E biztosítékok ellenére azonban az LLM-eket továbbra is sebezhetővé teheti az integrált biztonsági protokollokat megkerülő támadó bemenetekkel szemben.
A Prompt Shields egy egységes API, amely elemzi az LLM-bemeneteket, és észleli a felhasználói parancssori támadásokat és a dokumentumtámadásokat, amelyek a támadó bemenetek két gyakori típusa.
Parancssori pajzsok felhasználói kérésekhez
A korábban Jailbreak kockázatészlelésnek nevezett pajzs a felhasználói parancssori injektálási támadásokat célozza, amelyek során a felhasználók szándékosan kihasználják a rendszer biztonsági réseit, hogy jogosulatlan viselkedést váltanak ki az LLM-ből. Ez helytelen tartalomlétrehozáshoz vagy a rendszer által előírt korlátozások megsértéséhez vezethet.
Dokumentumok pajzsainak kérése
A pajzs célja, hogy védelmet nyújtson az olyan támadások ellen, amelyek a felhasználó vagy a fejlesztő által nem közvetlenül megadott információkat, például külső dokumentumokat használnak. Előfordulhat, hogy a támadók rejtett utasításokat ágyaznak be ezekbe az anyagokba, hogy jogosulatlanul szabályozhassák az LLM-munkamenetet.
Bemeneti támadások típusai
A Prompt Shields által észlelt bemeneti támadások két típusát ebben a táblázatban ismertetjük.
Típus | Támadó | Belépési pont | Metódus | Célkitűzés/hatás | Eredményül kapott viselkedés |
---|---|---|---|---|---|
Felhasználói parancssori támadások | User | Felhasználói kérések | Rendszerkérések/RLHF-betanítás figyelmen kívül hagyása | A tervezett LLM-viselkedés módosítása | Korlátozott műveletek végrehajtása a betanítással szemben |
Dokumentumtámadások | Harmadik fél | Külső tartalom (dokumentumok, e-mailek) | Harmadik féltől származó tartalom félreértelmezése | Jogosulatlan hozzáférés vagy vezérlés megszerzése | Nem kívánt parancsok vagy műveletek végrehajtása |
A felhasználói parancssori támadások altípusai
A prompt shields for User Prompt támadások a következő támadásosztályokat ismerik fel:
Kategória | Leírás |
---|---|
Rendszerszabályok módosítása | Ez a kategória magában foglalja, de nem kizárólagosan az új, korlátozás nélküli rendszer/AI-asszisztens szabályok, alapelvek vagy korlátozások nélküli használatára irányuló kéréseket, vagy olyan kéréseket, amelyek arra utasítják az AI-t, hogy hagyja figyelmen kívül, felejtse el és hagyja figyelmen kívül a szabályokat, utasításokat és korábbi fordulatokat. |
Beszélgetési makett beágyazása a modell megzavarásához | Ez a támadás egy felhasználói lekérdezésbe beágyazott, felhasználó által készített beszélgetési fordulatokat használ, hogy utasítsa a rendszer-/AI-asszisztenst a szabályok és korlátozások figyelmen kívül hagyására. |
Szerepjáték | Ez a támadás arra utasítja a rendszer/AI-asszisztenst, hogy egy másik "rendszerszemélyiségként" működjön, amely nem rendelkezik meglévő rendszerkorlátozásokkal, vagy antropomorf emberi tulajdonságokat rendel a rendszerhez, például érzelmeket, gondolatokat és véleményeket. |
Kódolási támadások | Ez a támadás kódolást kísérel meg használni, például karakterátalakítási módszert, generációs stílusokat, rejtjeleket vagy más természetes nyelvi változatokat a rendszerszabályok megkerülésére. |
A dokumentumtámadások altípusai
A Prompt Shields for Documents támadások a következő támadásosztályokat ismerik fel:
Kategória | Leírás |
---|---|
Manipulált tartalom | Adott információk meghamisításával, elrejtésével, módosításával vagy leküldésével kapcsolatos parancsok. |
Behatolás | A háttérrendszer létrehozásával, a jogosulatlan jogosultságok eszkalálásával és az LLM-ekhez és rendszerekhez való hozzáféréssel kapcsolatos parancsok |
Információgyűjtés | Az adatok törlésével, módosításával vagy elérésével vagy adatok ellopásával kapcsolatos parancsok. |
Elérhetőség | Olyan parancsok, amelyek használhatatlanná teszik a modellt a felhasználó számára, letiltanak egy bizonyos képességet, vagy helytelen információk létrehozására kényszerítik a modellt. |
Csalás | A felhasználó pénzből, jelszóból, információból való megtévesztésével vagy a felhasználó nevében, engedély nélkül történő eljárásával kapcsolatos parancsok |
Kártevő | Kártevők rosszindulatú hivatkozásokon, e-maileken stb. keresztül történő terjesztésével kapcsolatos parancsok. |
Rendszerszabályok módosítása | Ez a kategória magában foglalja, de nem kizárólagosan az új, korlátozás nélküli rendszer/AI-asszisztens szabályok, alapelvek vagy korlátozások nélküli használatára irányuló kéréseket, vagy olyan kéréseket, amelyek arra utasítják az AI-t, hogy hagyja figyelmen kívül, felejtse el és hagyja figyelmen kívül a szabályokat, utasításokat és korábbi fordulatokat. |
Beszélgetési makett beágyazása a modell megzavarásához | Ez a támadás egy felhasználói lekérdezésbe beágyazott, felhasználó által készített beszélgetési fordulatokat használ, hogy utasítsa a rendszer-/AI-asszisztenst a szabályok és korlátozások figyelmen kívül hagyására. |
Szerepjáték | Ez a támadás arra utasítja a rendszer/AI-asszisztenst, hogy egy másik "rendszerszemélyiségként" működjön, amely nem rendelkezik meglévő rendszerkorlátozásokkal, vagy antropomorf emberi tulajdonságokat rendel a rendszerhez, például érzelmeket, gondolatokat és véleményeket. |
Kódolási támadások | Ez a támadás kódolást kísérel meg használni, például karakterátalakítási módszert, generációs stílusokat, rejtjeleket vagy más természetes nyelvi változatokat a rendszerszabályok megkerülésére. |
Korlátozások
Nyelvi rendelkezésre állás
A Prompt Shields API jelenleg az angol nyelvet támogatja. Bár az API nem korlátozza a nem angol nyelvű tartalmak beküldését, az ilyen tartalmak elemzésében nem garantálhatjuk ugyanazt a minőséget és pontosságot. Azt javasoljuk a felhasználóknak, hogy elsősorban angol nyelven küldjenek tartalmat, hogy a legmegbízhatóbb és legpontosabb eredményeket biztosíthassák az API-ból.
Szöveghossz korlátozásai
A Prompt Shields maximális karakterkorlátja legfeljebb 10 000 karakter hosszúságú felhasználói kérést tesz lehetővé, míg a dokumentumtömb legfeljebb 5 dokumentumra korlátozódik, amelyek együttes száma nem haladja meg a 10 000 karaktert.
Régiók
Az API használatához létre kell hoznia az Azure AI Content Széf ty erőforrást a támogatott régiókban. Jelenleg a következő Azure-régiókban érhető el:
- USA keleti régiója
- Nyugat-Európa
TPS-korlátozások
Tarifacsomag | Kérelmek 10 másodpercenként |
---|---|
F0 | 1000 |
S0 | 1000 |
Ha magasabb díjra van szüksége, kérjük, forduljon hozzánk , hogy kérje.
Következő lépések
Kövesse a rövid útmutatót az Azure AI Content Széf ty használatának megkezdéséhez a felhasználói beviteli kockázatok észleléséhez.