Poznámka k transparentnosti pro bezpečnostní vyhodnocení azure AI Studia

Článek
05/21/2024

Důležité

Některé funkce popsané v tomto článku můžou být dostupné jenom ve verzi Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Co je poznámka průhlednosti

Systém AI zahrnuje nejen technologii, ale také lidi, kteří ho budou používat, osoby, které ho budou ovlivněny, a prostředí, ve kterém je nasazené. Vytvoření systému, který je vhodný pro zamýšlený účel, vyžaduje pochopení toho, jak technologie funguje, jaké jsou jeho schopnosti a omezení a jak dosáhnout nejlepšího výkonu. Poznámky Microsoftu k transparentnosti jsou určené k tomu, aby vám pomohly pochopit, jak naše technologie AI funguje, volby, které mohou vlastníci systému ovlivnit výkon a chování systému, a význam myšlení celého systému, včetně technologií, lidí a prostředí. Poznámky transparentnosti můžete použít při vývoji nebo nasazení vlastního systému nebo je můžete sdílet s lidmi, kteří budou váš systém používat nebo budou ovlivněni.

Poznámky Microsoftu k transparentnosti jsou součástí širšího úsilí Microsoftu, aby naše principy AI zavedly do praxe. Další informace najdete v zásadách Microsoft AI.

Základní informace o bezpečnostních vyhodnoceních azure AI Studia

Úvod

Vyhodnocení bezpečnosti azure AI Studia umožňuje uživatelům vyhodnotit výstup své generující aplikace AI pro rizika textového obsahu: nenávistný a nespravedlivý obsah, sexuální obsah, násilné obsah, obsah související s vlastním poškozením, ohrožení zabezpečení jailbreakem. Sejf ty hodnocení můžou také pomoct generovat nežádoucí datové sady, které vám pomůžou zrychlit a rozšířit operaci seskupování red. Vyhodnocení bezpečnosti Azure AI Studia odráží závazky Microsoftu, aby se zajistilo, že systémy AI jsou bezpečně a zodpovědně sestavené a zprovozní naše zásady zodpovědné umělé inteligence.

Klíčové pojmy

Nenávistný a nespravedlivý obsah se týká jakéhokoli jazyka, který se týká nenávisti vůči jednotlivcům a sociálním skupinám, včetně rasy, etnické příslušnosti, státní příslušnosti, pohlaví, sexuální orientace, náboženství, statusu přistěhovalectví, schopnosti, osobního vzhledu a velikosti těla. K nespravedlivosti dochází v případě, že systémy umělé inteligence zachází s sociálními skupinami nebo představují nespravedlivě, vytvářejí nebo přispívají k společenským nepravostem.
Sexuální obsah zahrnuje jazyk týkající se anatomických orgánů a pohlavních orgánů, romantických vztahů, jednání vylíčená erotickými výrazy, těhotenství, fyzické sexuální činy (včetně napadení nebo sexuálního násilí), prostituce, pornografie a sexuálního zneužívání.
Násilné obsah zahrnuje jazyk týkající se fyzických akcí určených k poškození, zranění, poškození nebo zabití někoho nebo něčeho. Obsahuje také popis zbraní a zbraní (a souvisejících entit, jako jsou výrobci a sdružení).
Obsah související s vlastním poškozením zahrnuje jazyk týkající se akcí určených k poškození, zranění nebo poškození těla nebo zabití sebe sama.
Jailbreak, přímé útoky na výzvy nebo útoky prostřednictvím injektáže uživatelů, odkazují na uživatele, kteří manipulují s výzvami k vložení škodlivých vstupů do LLM za účelem zkreslení akcí a výstupů. Příkladem příkazu s jailbreakem je útok DAN (DoYthing Now), který může oklamat LLM do nevhodné generace obsahu nebo ignorovat systémová omezení.
Míra vad (riziko obsahu) je definována jako procento instancí v testovací datové sadě, které překračují prahovou hodnotu v rozsahu závažnosti nad celou velikost datové sady.
Red-teaming má historicky popsaný systematický nežádoucí útoky pro testování ohrožení zabezpečení. S nárůstem velkých jazykových modelů (LLM) se termín rozšířil nad rámec tradiční kybernetické bezpečnosti a vyvinul se v běžném používání, aby popsal mnoho druhů sondování, testování a útoku na systémy AI. U LLM mohou neškodné i nežádoucí použití vést k potenciálně škodlivým výstupům, které mohou mít mnoho forem, včetně škodlivého obsahu, jako je nenávistná řeč, vyvolání nebo vyvolání násilí, odkaz na obsah související se sebepoškozováním nebo sexuálním obsahem.

Možnosti

Chování systému

Azure AI Studio zřídí model Azure OpenAI GPT-4 a orchestruje nežádoucí útoky na vaši aplikaci za účelem vygenerování vysoce kvalitní testovací datové sady. Potom zřídí další model GPT-4 pro přidávání poznámek k testovací datové sadě pro obsah a zabezpečení. Uživatelé poskytují koncový bod generující aplikace AI, který chtějí testovat, a vyhodnocení bezpečnosti vypíše statickou testovací datovou sadu s tímto koncovým bodem spolu s popiskem rizika obsahu (velmi nízká, nízká, střední, vysoká) a odůvodněním popisku generovaného AI.

Případy použití

Zamýšlené použití

Bezpečnostní vyhodnocení nejsou určená k žádnému účelu, než k vyhodnocení rizik obsahu a ohrožení zabezpečení jailbreaku vaší generující aplikace AI:

Vyhodnocení před nasazením generující aplikace AI: Pomocí průvodce vyhodnocením v sadě Azure AI Studio nebo sadou Azure AI Python SDK můžou bezpečnostní vyhodnocení vyhodnotit automatizovaným způsobem, jak vyhodnotit potenciální obsah nebo bezpečnostní rizika.
Rozšiřování operací s červeným seskupováním: Pomocí nežádoucího simulátoru můžou bezpečnostní vyhodnocení simulovat nežádoucí interakce s vaší generační aplikací AI, aby se pokusila odhalit obsah a bezpečnostní rizika.
Komunikace obsahu a bezpečnostních rizik zúčastněným stranám: Pomocí nástroje Azure AI Studio můžete sdílet přístup k projektu Azure AI Studio s výsledky vyhodnocení bezpečnosti s auditory nebo zúčastněnými stranami dodržování předpisů.

Důležité informace o výběru případu použití

Zákazníkům doporučujeme využít bezpečnostní hodnocení Azure AI Studio ve svých inovativních řešeních nebo aplikacích. Tady jsou ale některé aspekty při výběru případu použití:

Sejf ty hodnocení by měla zahrnovat human-in-the-loop: Použití automatizovaných vyhodnocení, jako je bezpečnostní vyhodnocení Azure AI Studio, by mělo zahrnovat lidské revidující, jako jsou odborníci na domény, aby mohli posoudit, jestli byla vaše generační aplikace AI důkladně testována před nasazením koncovým uživatelům.
Sejf ty hodnocení nezahrnují celkové komplexní pokrytí: I když bezpečnostní vyhodnocení můžou poskytnout způsob, jak rozšířit testování potenciálního obsahu nebo bezpečnostních rizik, nebyla navržena tak, aby nahradila ruční operace seskupování red-seskupování speciálně zaměřené na doménu vaší aplikace, případy použití a typ koncových uživatelů.
Podporované scénáře:
- Pro nežádoucí simulaci: Zodpovězení otázek, vícenásobný chat, shrnutí, vyhledávání, přepsání textu, generování neuzemněného a uzemněného obsahu.
- Automatická poznámka: Zodpovězení otázek a vícenásobný chat.
Služba se v současné době nejlépe používá s anglickou doménou pouze pro textové generace. Další funkce, včetně podpory více modelů, se budou zvažovat pro budoucí verze.
Pokrytí rizik obsahu, která jsou součástí vyhodnocení bezpečnosti, je podvzorkováno z omezeného počtu skupin a témat:
- Metrika nenávisti a nespravedlivosti zahrnuje určité pokrytí omezeného počtu skupin pro demografický faktor pohlaví (například muži, ženy, nebinární lidé) a rasu, rasu, etnicititu a státní příslušnost (například černošská, mexická, evropská). Ne všechny genderové a rasové skupiny, rodové, etnické a státní příslušnosti jsou pokryty. Další demografické faktory, které jsou relevantní pro nenávist a nespravedlivost, v současné době nemají pokrytí (například postižení, asymetrie, náboženství).
- Metriky pro obsah související se sexuálním, násilném a sebepoškozováním jsou založeny na předběžné konceptualizaci těchto škod, které jsou méně vyvinuté než nenávist a nespravedlivost. To znamená, že můžeme dosáhnout méně silných tvrzení o pokrytí měření a o tom, jak dobře měření představují různé způsoby, jak k těmto škodám může dojít. Pokrytí těchto typů obsahu zahrnuje omezený počet témat souvisejících se sexem (například sexuální násilí, vztahy, sexuální činy), násilím (například zneužíváním, poškozením ostatních, únosem) a sebepoškozováním (například úmyslná smrt, úmyslná smrt, úmyslné zranění, poruchy stravování).
Bezpečnostní hodnocení Azure AI Studio v současné době neumožňují moduly plug-in ani rozšiřitelnost.
Abychom zachovali kvalitu v aktualizovaném stavu a zlepšili pokrytí, zaměříme se na četnost budoucích verzí vylepšení nežádoucí simulace a poznámek služby.

Technická omezení, provozní faktory a rozsahy

Obor rozsáhlých jazykových modelů (LLM) se neustále vyvíjí rychlým tempem, což vyžaduje průběžné vylepšování technik hodnocení, aby se zajistilo bezpečné a spolehlivé nasazení systému AI. Bezpečnostní vyhodnocení Azure AI Studio odráží závazek Microsoftu pokračovat v inovování v oblasti hodnocení LLM. Snažíme se poskytnout nejlepší nástroje, které vám pomůžou vyhodnotit bezpečnost vašich generovaných aplikací umělé inteligence, ale rozpoznat efektivní hodnocení je průběžná práce.
Přizpůsobení bezpečnostních hodnocení azure AI Studio je v současné době omezené. Očekáváme, že uživatelé zadají vstupní koncový bod aplikace umělé inteligence a naše služba vypíše statickou datovou sadu označenou rizikem obsahu.
Nakonec je třeba poznamenat, že tento systém neautomatizuje žádné akce ani úlohy, pouze poskytuje vyhodnocení výstupů generující aplikace AI, které by měl zkontrolovat člověk rozhodovací tvůrce ve smyčce před tím, než se rozhodne nasadit generování aplikace nebo systému AI do produkčního prostředí pro koncové uživatele.

Výkon systému

Osvědčené postupy pro zlepšení výkonu systému

Při účtování vaší domény, která může s určitým obsahem zacházet citlivěji než s jiným, zvažte úpravu prahové hodnoty pro výpočet míry vad.
Při použití automatizovaných bezpečnostních vyhodnocení může někdy dojít k chybě v popiscích generovaných AI pro závažnost rizika obsahu nebo jeho odůvodnění. Existuje sloupec ruční zpětné vazby člověka, který umožňuje ověření automatizovaných výsledků vyhodnocení bezpečnosti mezi lidmi.

Vyhodnocení bezpečnostních hodnocení Azure AI Studio

Metody vyhodnocení

U všech podporovaných typů rizik obsahu jsme interně kontrolovali kvalitu porovnáním míry přibližných shod mezi lidmi, kteří používají škálu závažnosti 0–7, a automatizovaný anotátor bezpečnostních hodnocení používá také měřítko závažnosti 0–7 u stejných datových sad. Pro každou rizikovou oblast jsme měli jak lidské popisovače, tak automatizovaný popisek annotátoru 500 anglického jednoúčelového textu. Popisovače lidí a automatizovaný anotátor nepoužívaly přesně stejné verze pokynů pro poznámky; zatímco pokyny automatizovaného anotátoru vycházejí z pokynů pro lidi, liší se od různých stupňů (s tím, jak se pravidla nenávisti a nespravedlivosti rozbíhají nejvíce). Navzdory těmto mírným až mírným rozdílům věříme, že je stále užitečné sdílet obecné trendy a přehledy z našeho porovnání přibližných shod. V našich porovnáních jsme hledali shody s 2úrovňovou tolerancí (kde popisek člověka přesně odpovídal popisku automatizovaného anotátoru nebo byl ve 2 úrovních nad nebo nižší závažností), odpovídá tolerance na úrovni 1 a odpovídá tolerance na úrovni 0.

Výsledky vyhodnocení

Celkově jsme viděli vysokou míru přibližných shod napříč riziky sebepoškozování a sexuálního obsahu napříč všemi úrovněmi tolerance. V případě násilí a nenávisti a nespravedlivosti byla přibližná míra shody na úrovních tolerance nižší. Tyto výsledky byly částečně způsobeny zvýšeným rozdílem v obsahu zásad poznámek pro lidské popisovače a automatizované poznámky, a částečně kvůli zvýšenému množství obsahu a složitosti v konkrétních pokynech.

I když jsou naše porovnání mezi entitami, které se mírně používají k mírně odlišným pokynům pro poznámky (a nejsou tedy standardními porovnáními smluv s lidským modelem), poskytují tato porovnání odhad kvality, kterou můžeme očekávat od bezpečnostních vyhodnocení Azure AI Studio s ohledem na parametry těchto porovnání. Konkrétně jsme se podívali pouze na anglické ukázky, takže naše závěry nemusí být generalizovány v jiných jazycích. Každá ukázka datové sady se také skládá z jediného otočení, takže k ověření generalizovatelnosti našich výsledků vyhodnocení ve scénářích s vícenásobným otáčením (například zpětná konverzace včetně uživatelských dotazů a systémových odpovědí) jsou potřeba další experimenty. Typy vzorků použitých v těchto testovacích datových sadách můžou také výrazně ovlivnit přibližnou míru shody mezi lidskými popisky a automatizovaným poznámkami – pokud jsou vzorky snadněji označené (například pokud jsou všechny vzorky bez rizik obsahu), můžeme očekávat, že přibližná míra shody bude vyšší. Kvalita lidských popisků pro vyhodnocení by také mohla ovlivnit generalizaci našich zjištění.

Vyhodnocení a integrace bezpečnostních hodnocení azure AI Studia pro vaše použití

Měření a vyhodnocení aplikace generující umělé inteligence je důležitou součástí holistického přístupu ke správě rizik umělé inteligence. Bezpečnostní hodnocení Azure AI Studio doplňují a měly by se používat společně s jinými postupy řízení rizik umělé inteligence. Odborníci na domény a revidující lidské smyčky by měli při používání vyhodnocení bezpečnosti asistované umělé inteligence při vytváření návrhu, vývoje a cyklu nasazení aplikací umělé inteligence poskytovat správný dohled. Měli byste porozumět omezením a zamýšleným používáním bezpečnostních hodnocení a pečlivě se nespoléhejte na výstupy vytvořené vyhodnoceními bezpečnosti asistované službou Azure AI Studio v izolaci.

Vzhledem k ne deterministické povaze LLM může docházet k falešně negativním nebo pozitivním výsledkům, jako je například vysoká úroveň závažnosti násilného obsahu, která je označená jako "velmi nízká" nebo "nízká". Kromě toho výsledky vyhodnocení můžou mít pro různé cílové skupiny různé významy. Například vyhodnocení bezpečnosti může generovat popisek "nízké" závažnosti násilného obsahu, který nemusí odpovídat definici lidského revidujících, jak závažný může být konkrétní násilné obsah. V Nástroji Azure AI Studio poskytujeme sloupec zpětné vazby člověka s palcem nahoru a palcem dolů při prohlížení výsledků vyhodnocení, abychom zjistili, které instance byly schváleny nebo označeny jako nesprávné od kontrolorem lidí. Vezměte v úvahu kontext toho, jak by vaše výsledky mohly být interpretovány pro rozhodování jinými uživateli, můžete sdílet hodnocení s výsledky a ověřit výsledky vyhodnocení s odpovídající úrovní kontroly na úrovni rizika v prostředí, ve kterém každá generující aplikace AI funguje.

Share via