Átláthatósági megjegyzés az Azure AI Studio biztonsági kiértékeléseihez
Fontos
A cikkben megjelölt (előzetes verziójú) elemek jelenleg nyilvános előzetes verzióban érhetők el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
Mi az az átláthatósági megjegyzés?
Az AI-rendszerek nem csak a technológiát, hanem a felhasználókat is magukban foglalják, azokat, akiket érint majd, és a környezet, amelyben üzembe helyezték. A célnak megfelelő rendszer létrehozásához ismerni kell a technológia működését, képességeit és korlátait, valamint a legjobb teljesítmény elérését. A Microsoft átláthatósági megjegyzései segítenek megérteni az AI-technológia működését, a rendszertulajdonosok választási lehetőségeit, amelyek befolyásolhatják a rendszer teljesítményét és viselkedését, valamint hogy mennyire fontos az egész rendszerre , beleértve a technológiát, az embereket és a környezetet is. A saját rendszer fejlesztésekor vagy üzembe helyezésekor használhatja az átláthatósági megjegyzéseket, vagy megoszthatja azokat a rendszer által használni kívánt vagy érintett személyekkel.
A Microsoft átláthatósági megjegyzései a Microsoft szélesebb körű erőfeszítéseinek részét képezik az MI-alapelvek gyakorlati alkalmazásához. További információkért tekintse meg a Microsoft AI alapelveit.
Az Azure AI Studio biztonsági kiértékelésének alapjai
Bevezetés
Az Azure AI Studio biztonsági értékelései lehetővé teszik a felhasználók számára, hogy értékeljék a generatív AI-alkalmazás kimenetét a szöveges tartalom kockázataira vonatkozóan: gyűlölködő és tisztességtelen tartalmak, szexuális tartalmak, erőszakos tartalmak, önkárosítással kapcsolatos tartalmak, jailbreak sebezhetőség. A biztonsági értékelések a támadó adathalmazok létrehozásában is segíthetnek a red teaming művelet felgyorsításában és bővítésében. Az Azure AI Studio biztonsági értékelései tükrözik a Microsoft azon kötelezettségvállalásait, amelyek biztosítják, hogy az AI-rendszerek biztonságosan és felelősségteljesen épüljenek fel, és a felelős AI-alapelveket működőképessé tegyük.
Kulcsfogalmak
- A gyűlöletkeltő és tisztességtelen tartalom minden olyan nyelvre vonatkozik, amely az egyének és társadalmi csoportok gyűlöletével vagy tisztességtelen ábrázolásával kapcsolatos, beleértve a faji, etnikai, nemzetiségi, nemi, szexuális orientációt, vallást, bevándorlási státuszt, képességet, személyes megjelenést és testméretet. A tisztességtelenség akkor fordul elő, ha az AI-rendszerek a társadalmi csoportokat méltánytalanul kezelik vagy képviselik, és társadalmi igazságtalanságokat hoznak létre vagy járulnak hozzá.
- A szexuális tartalom magában foglalja az anatómiai szervekre és nemi szervekre vonatkozó nyelveket, a romantikus kapcsolatokat, az erotikus kifejezésekkel ábrázolt cselekedeteket, a terhességet, a fizikai szexuális aktusokat (beleértve a testi sértést vagy a szexuális erőszakot), a prostitúciót, a pornográfiát és a szexuális visszaéléseket.
- Az erőszakos tartalmak magukban foglalják a személy vagy valami megsebesítésére, sérülésére vagy megölésére irányuló fizikai műveletek nyelvét. Emellett tartalmazza a fegyverek és fegyverek leírását is (és a kapcsolódó szervezeteket, például a gyártókat és a szövetségeket).
- Az önkárosítással kapcsolatos tartalmak magukban foglalják a test fájására, sérülésére vagy sérülésére vagy megölésére irányuló műveletek nyelvét.
- A jailbreak, a közvetlen parancssori támadások vagy a felhasználói parancssori injektálási támadások arra hivatkoznak, hogy a felhasználók módosítják a kéréseket, hogy káros bemeneteket injektáljanak az LLM-be a műveletek és kimenetek torzítása érdekében. A jailbreak parancsra példa a "DAN" (Do Anything Now) támadás, amely az LLM-et nem megfelelő tartalomgenerálásra vagy a rendszer által előírt korlátozások figyelmen kívül hagyására képes átverni.
- A hibaarány (tartalomkockázat) a tesztadatkészlet azon példányainak százalékos aránya, amelyek túllépik a súlyossági skálán a teljes adathalmaz méretére vonatkozó küszöbértéket.
- A red-teaming korábban a biztonsági rések tesztelésére irányuló rendszeres támadásokat ismertette. A nagy nyelvi modellek (LLM) elterjedésével a kifejezés túlnyúlt a hagyományos kiberbiztonságon, és a gyakori használatban a mi-rendszerek tesztelésének, tesztelésének és támadásának különféle típusainak leírására fejlődött. Az LLM-ekkel a jóindulatú és a rosszindulatú használat is potenciálisan káros kimeneteket eredményezhet, amelyek számos formában lehetnek, beleértve a káros tartalmakat, például a gyűlöletkeltő beszédet, az erőszak felbujtását vagy dicsőítését, az önkárosítással kapcsolatos tartalmakra vagy szexuális tartalmakra való hivatkozást.
Képességek
Rendszer viselkedése
Az Azure AI Studio kiépít egy Azure OpenAI GPT-4 modellt, és ellentámadásokat indít az alkalmazás ellen, hogy magas minőségű tesztadatkészletet hozzon létre. Ezután kiépít egy másik GPT-4 modellt a tesztadatkészlet tartalom- és biztonsági megjegyzésekkel való ellátásához. A felhasználók biztosítják a tesztelni kívánt generatív AI-alkalmazásvégpontjukat, és a biztonsági értékelések statikus tesztadatkészletet adnak ki a végponton a tartalomkockázati címkével (Nagyon alacsony, Alacsony, Közepes, Magas) és az AI által létrehozott címke érvelésével együtt.
Használati esetek
Tervezett felhasználások
A biztonsági értékelések nem használhatók más célra, mint a tartalomkockázatok és a generatív AI-alkalmazás biztonsági réseinek kiértékelése:
- A generatív AI-alkalmazás üzembe helyezése előtti kiértékelése: Az Azure AI Studióban vagy az Azure AI Python SDK-ban található kiértékelő varázsló használatával a biztonsági értékelések automatikusan kiértékelhetik a lehetséges tartalmakat vagy biztonsági kockázatokat.
- A red-teaming műveletek bővítése: A támadószimulátor használatával a biztonsági értékelések a generatív AI-alkalmazással való támadó interakciókat szimulálhatják a tartalom és a biztonsági kockázatok feltárása érdekében.
- Tartalom és biztonsági kockázatok kommunikálása az érintettekkel: Az Azure AI Studio használatával megoszthatja az Azure AI Studio-projekthez való hozzáférést a biztonsági értékelések eredményeivel az auditorokkal vagy a megfelelőségi érdekelt felekkel.
Használati eset kiválasztásakor megfontolandó szempontok
Arra ösztönözzük az ügyfeleket, hogy innovatív megoldásaikban vagy alkalmazásaikban használják az Azure AI Studio biztonsági kiértékeléseit. A használati eset kiválasztásakor azonban íme néhány szempont:
- A biztonsági értékeléseknek tartalmazniuk kell az emberi használatot: Az olyan automatizált értékelések, mint például az Azure AI Studio biztonsági értékelései, emberi véleményezőket, például tartományi szakértőket is tartalmazniuk kell annak felméréséhez, hogy a generatív AI-alkalmazást alaposan tesztelték-e az üzembe helyezés előtt a végfelhasználók számára.
- A biztonsági értékelések nem tartalmaznak teljes körű lefedettséget: Bár a biztonsági értékelések lehetővé teszik a lehetséges tartalom- vagy biztonsági kockázatok tesztelésének bővítését, nem úgy tervezték, hogy felváltsa a kifejezetten az alkalmazás tartományára, használati eseteire és végfelhasználói típusára irányuló manuális red teaming műveleteket.
- Támogatott forgatókönyvek:
- A támadószimulációhoz: Kérdések megválaszolása, többfordulós csevegés, összegzés, keresés, szöveg újraírása, alaptalan és alapozott tartalomgenerálás.
- Automatizált jegyzeteléshez: Kérdések megválaszolása és többfordulós csevegés.
- A szolgáltatás jelenleg a legjobban az angol tartományhoz használható csak szöveges generációk számára. A jövőbeni kiadásokban további funkciókat is figyelembe veszünk, beleértve a többmodelles támogatást is.
- A biztonsági értékelésekben szereplő tartalomkockázatok lefedettsége korlátozott számú marginalizált csoportból és témakörből származik:
- A gyűlölet- és igazságtalanság mérőszám bizonyos lefedettséget tartalmaz a nemek demográfiai tényezője (például férfiak, nők, nem bináris személyek) és a faji, származási, etnikai és nemzetiségi (például fekete, mexikói, európai) korlátozott számú marginalizált csoportra vonatkozóan. A nem és a faj, az származás, az etnikum és az állampolgárság nem minden marginalizált csoportjára vonatkozik. A gyűlölet és a tisztességtelenség szempontjából releváns egyéb demográfiai tényezők jelenleg nem rendelkeznek lefedettséggel (például fogyatékosság, szexualitás, vallás).
- A szexuális, erőszakos és önkárosítással kapcsolatos tartalmak metrikái ezeknek az ártalmaknak az előzetes koncepcióján alapulnak, amelyek kevésbé fejlettek, mint a gyűlölet és a tisztességtelenség. Ez azt jelenti, hogy kevésbé erős állításokat tudunk tenni a mérési lefedettségről, és hogy a mérések milyen módon jelölik ezeket a károkat. Az ilyen tartalomtípusok hatóköre korlátozott számú témakört tartalmaz, amelyek a nemhez (például szexuális erőszakhoz, kapcsolatokhoz, szexuális aktusokhoz), az erőszakhoz (például visszaéléshez, mások megsebesítéséhez, emberrabláshoz) és az önkárosításhoz (például szándékos halálhoz, szándékos önsértéshez, étkezési zavarokhoz) kapcsolódnak.
- Az Azure AI Studio biztonsági kiértékelései jelenleg nem teszik lehetővé a beépülő modulok és a bővíthetőség engedélyezését.
- A minőség naprakészen tartása és a lefedettség javítása érdekében arra törekszünk, hogy a szolgáltatás támadószimulációs és széljegyzetkészítési képességeinek jövőbeni fejlesztései folyamatosan javuljanak.
Technikai korlátozások, működési tényezők és tartományok
- A nagy nyelvi modellek (LLM-ek) területe továbbra is gyors ütemben fejlődik, és a kiértékelési technikák folyamatos fejlesztését igényli a biztonságos és megbízható AI-rendszerek üzembe helyezése érdekében. Az Azure AI Studio biztonsági értékelései tükrözik a Microsoft azon elkötelezettségét, hogy továbbra is innovációt folytanak az LLM-értékelés területén. Célunk, hogy a lehető legjobb eszközt biztosítsuk a generatív AI-alkalmazások biztonságának értékeléséhez, de a hatékony értékelés felismerése folyamatos munka.
- Az Azure AI Studio biztonsági kiértékelései jelenleg korlátozottak. A felhasználóktól csak a bemeneti generatív AI-alkalmazásvégpontot várjuk, és szolgáltatásunk egy statikus adatkészletet ad ki, amely tartalomkockázatra van címkézve.
- Végezetül meg kell jegyezni, hogy ez a rendszer nem automatizál semmilyen műveletet vagy feladatot, csak kiértékeli a generatív AI-alkalmazások kimeneteit, amelyeket egy emberi döntéshozónak felül kell vizsgálnia a ciklusban, mielőtt a generatív AI-alkalmazás vagy rendszer üzembe helyezését választaná a végfelhasználók számára éles környezetben.
Rendszerteljesítmény
Ajánlott eljárások a rendszer teljesítményének javításához
- A tartomány könyvelése során, amely bizonyos tartalmakat érzékenyebben kezelhet, mint a többi, érdemes lehet módosítani a hibaarány kiszámításának küszöbértékét.
- Az automatizált biztonsági értékelések használatakor előfordulhat, hogy az AI által létrehozott címkékben hiba jelenik meg a tartalomkockázat súlyossága vagy érvelése miatt. Van egy manuális emberi visszajelzési oszlop, amely lehetővé teszi az automatizált biztonsági értékelés eredményeinek emberi-in-the-loop ellenőrzését.
Az Azure AI Studio biztonsági értékelései
Értékelési módszerek
Az összes támogatott tartalomkockázati típus esetében belsőleg ellenőriztük a minőséget úgy, hogy összehasonlítottuk az emberi címkézők közötti közelítő egyezések arányát egy 0-7 súlyossági skálával, valamint a biztonsági értékelések automatizált széljegyzetét egy 0-7 súlyossági skálával ugyanazon az adatkészleten. Minden kockázati területen emberi címkézők és egy automatizált jegyzetfelirat 500 angol, egyfordulós szövegek voltak. Az emberi címkézők és az automatizált széljegyzetek nem pontosan ugyanazokat a széljegyzetelési irányelveket használták; míg az automatizált széljegyzetek irányelvei az emberekre vonatkozó irányelvekből eredtek, azóta különböző mértékben váltak el (a gyűlöletre és a tisztességtelenségre vonatkozó irányelvek a leginkább eltértek). A kis és közepes különbségek ellenére úgy gondoljuk, hogy még mindig hasznos az általános trendek és a hozzávetőleges egyezések összehasonlításából származó megállapítások megosztása. Összehasonlításainkban kétszintű tűrésű egyezéseket kerestünk (ahol az emberi címke pontosan megfelelt az automatizált széljegyzetcímkének, vagy a súlyosságban 2 szint felett vagy alatta volt), egy 1 szintű tűrésű egyezéseket, és 0-szintű tűréssel rendelkező egyezéseket.
A kiértékelés eredménye
Összességében az önkárosítás és a szexuális tartalom kockázatainak közelítő arányát láthattuk minden toleranciaszinten. Az erőszak, a gyűlölet és a tisztességtelenség esetében a toleranciaszintek közötti közelítő egyezések aránya alacsonyabb volt. Ezek az eredmények részben az emberi címkézők és az automatizált széljegyzetkészítők jegyzetelési útmutatóinak megnövekedett eltéréséből, részben pedig a konkrét irányelvekben szereplő tartalom és összetettség megnövekedett mennyiségéből eredtek.
Bár az összehasonlítások olyan entitások között vannak, amelyek kissé eltérő széljegyzetekre vonatkozó irányelveket használtak (és így nem szabványos emberimodell-szerződés összehasonlítások), ezek az összehasonlítások becslést nyújtanak az Azure AI Studio biztonsági kiértékeléseitől az összehasonlítások paraméterei alapján. Pontosabban csak az angol mintákat vizsgáltuk, így az eredmények nem feltétlenül általánosulnak más nyelvekre. Emellett minden adathalmaz-minta csak egyetlen fordulóból állt, ezért további kísérletekre van szükség annak ellenőrzéséhez, hogy a kiértékelési eredmények általánosíthatók-e többfordulós forgatókönyvekre (például egy oda-vissza beszélgetésre, beleértve a felhasználói lekérdezéseket és a rendszerválaszokat). Az ilyen kiértékelési adathalmazokban használt minták típusai szintén nagyban befolyásolhatják az emberi címkék és az automatizált széljegyzetek közötti hozzávetőleges egyezés arányát – ha a minták könnyebben címkézhetők (például ha minden minta tartalomkockázattól mentes), akkor várható, hogy a hozzávetőleges egyezési arány magasabb lesz. Az értékeléshez használt emberi címkék minősége hatással lehet az eredmények általánosítására is.
Az Azure AI Studio biztonsági értékeléseinek kiértékelése és integrálása az Ön számára
A generatív AI-alkalmazás mérése és kiértékelése az AI-kockázatkezelés holisztikus megközelítésének kritikus részét képezi. Az Azure AI Studio biztonsági kiértékelései kiegészítik az AI-kockázatkezelési eljárásokat, és ezeket más AI-kockázatkezelési gyakorlatokkal párhuzamosan kell használni. A tartományi szakértőknek és a cikluson belüli emberi véleményezőknek megfelelő felügyeletet kell biztosítaniuk, amikor mesterséges intelligenciával támogatott biztonsági értékeléseket használnak a generatív AI-alkalmazások tervezési, fejlesztési és üzembehelyezési ciklusában. Tisztában kell lennie a biztonsági értékelések korlátaival és tervezett felhasználási módjaival, ügyelve arra, hogy ne támaszkodjon az Azure AI Studio AI által támogatott biztonsági értékelések által előállított kimenetekre külön-külön.
Az LLM-ek nem determinisztikus jellege miatt előfordulhat, hogy hamis negatív vagy pozitív eredményeket tapasztal, például a "nagyon alacsony" vagy "alacsony" pontszámú erőszakos tartalmak magas súlyossági szintje. Emellett a kiértékelési eredmények különböző jelentéssel bírhatnak a különböző célközönségek számára. A biztonsági értékelések például olyan erőszakos tartalmak "alacsony" súlyosságú címkéjét eredményezhetik, amelyek nem feltétlenül igazodnak az emberi véleményező azon definícióihoz, hogy milyen súlyos lehet az adott erőszakos tartalom. Az Azure AI Studióban egy emberi visszajelzési oszlopot biztosítunk felfelé és lefelé mutató hüvelykujjal a kiértékelési eredmények megtekintésekor, hogy azok a példányok, amelyeket egy emberi véleményező jóváhagyott vagy helytelenként megjelölt. Vegye figyelembe, hogy az eredmények hogyan értelmezhetők mások döntéshozatala során, ha megosztják a kiértékelési eredményeket, és a megfelelő szintű ellenőrzéssel ellenőrzik az egyes generatív AI-alkalmazások által használt környezetben a kockázat szintjét.
További információk a felelős mesterséges intelligenciáról
- A Microsoft AI alapelvei
- A Microsoft felelős AI-erőforrásai
- Microsoft Azure-tanfolyamok a felelős AI-ről
További információ az Azure AI Studio biztonsági értékeléseiről
- A Microsoft koncepciódokumentációja a generatív AI-alkalmazások értékelésének megközelítéséről
- A Microsoft koncepciódokumentációja a biztonsági értékelés működéséről
- A Microsoft útmutató dokumentációja a biztonsági értékelések használatáról
- Technikai blog a tartalom és a biztonsági kockázatok kiértékeléséről a generatív AI-alkalmazásokban