Transparensanteckning för säkerhetsutvärderingar i Azure AI Studio

Artikel
05/21/2024

Viktigt!

Vissa av de funktioner som beskrivs i den här artikeln kanske bara är tillgängliga i förhandsversionen. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Vad är en transparensanteckning

Ett AI-system omfattar inte bara tekniken, utan även de personer som ska använda den, de personer som påverkas av den och miljön där den distribueras. Att skapa ett system som är lämpligt för sitt avsedda syfte kräver en förståelse för hur tekniken fungerar, vilka dess funktioner och begränsningar är och hur man uppnår bästa prestanda. Microsofts Transparensanteckningar är avsedda att hjälpa dig att förstå hur vår AI-teknik fungerar, vilka val systemägare kan göra som påverkar systemets prestanda och beteende samt vikten av att tänka på hela systemet, inklusive teknik, människor och miljö. Du kan använda Transparensanteckningar när du utvecklar eller distribuerar ditt eget system eller delar dem med de personer som kommer att använda eller påverkas av systemet.

Microsofts Transparensanteckningar är en del av ett bredare arbete hos Microsoft för att omsätta våra AI-principer i praktiken. Mer information finns i Microsoft AI-principerna.

Grunderna i Säkerhetsutvärderingar i Azure AI Studio

Introduktion

Med Azure AI Studio-säkerhetsutvärderingarna kan användarna utvärdera utdata från sina generativa AI-program för risker med textinnehåll: hatiskt och orättvist innehåll, sexuellt innehåll, våldsamt innehåll, självskaderelaterat innehåll, sårbarhet i jailbreak. Valv ty utvärderingar kan också hjälpa dig att generera datauppsättningar som hjälper dig att påskynda och utöka red-teaming-åtgärden. Säkerhetsutvärderingar i Azure AI Studio återspeglar Microsofts åtaganden att se till att AI-system skapas på ett säkert och ansvarsfullt sätt, vilket operationaliserar våra principer för ansvarsfull AI.

Nyckeltermer

Hatiskt och orättvist innehåll avser alla språk som rör hat mot eller orättvisa representationer av individer och sociala grupper längs faktorer inklusive men inte begränsat till ras, etnicitet, nationalitet, kön, sexuell läggning, religion, invandringsstatus, förmåga, personligt utseende och kroppsstorlek. Orättvisa uppstår när AI-system behandlar eller representerar sociala grupper på ett orättvist sätt, vilket skapar eller bidrar till samhälleliga orättvisor.
Sexuellt innehåll omfattar språk som rör anatomiska organ och könsorgan, romantiska relationer, handlingar som porträtteras i erotiska termer, graviditet, fysiska sexuella handlingar (inklusive övergrepp eller sexuellt våld), prostitution, pornografi och sexuella övergrepp.
Våldsamt innehåll innehåller språk som rör fysiska handlingar som är avsedda att skada, skada, skada eller döda någon eller något. Den innehåller också beskrivningar av vapen och vapen (och relaterade enheter som tillverkare och föreningar).
Självskaderelaterat innehåll innehåller språk som rör handlingar som är avsedda att skada, skada eller skada ens kropp eller döda sig själv.
Jailbreaka, direktuppdatera attacker eller användarinmatningsattacker, referera till användare som manipulerar uppmaningar om att mata in skadliga indata i LLM:er för att förvränga åtgärder och utdata. Ett exempel på ett jailbreak-kommando är en "DAN" (Do Anything Now)-attack, som kan lura LLM till olämplig innehållsgenerering eller ignorera systeminförda begränsningar.
Defektfrekvens (innehållsrisk) definieras som procentandelen instanser i testdatauppsättningen som överskrider ett tröskelvärde för allvarlighetsgradsskalan över hela datamängdens storlek.
Red-teaming har historiskt beskrivit systematiska attacker mot angrepp för att testa säkerhetsrisker. Med ökningen av stora språkmodeller (LLM) har termen utvidgats utöver traditionell cybersäkerhet och utvecklats i vanlig användning för att beskriva många typer av avsökning, testning och angrepp av AI-system. Med LLM kan både godartad och kontradiktorisk användning producera potentiellt skadliga utdata, som kan ta många former, inklusive skadligt innehåll som hatiskt tal, uppvigling eller förhärligande av våld, hänvisning till självskaderelaterat innehåll eller sexuellt innehåll.

Funktioner

Systembeteende

Azure AI Studio etablerar en Azure OpenAI GPT-4-modell och samordnar attacker mot ditt program för att generera en testdatauppsättning av hög kvalitet. Den etablerar sedan en annan GPT-4-modell för att kommentera testdatauppsättningen för innehåll och säkerhet. Användarna tillhandahåller sin generativa AI-programslutpunkt som de vill testa, och säkerhetsutvärderingarna matar ut en statisk testdatauppsättning mot slutpunkten tillsammans med dess innehållsrisketikett (Mycket låg, Låg, Medel, Hög) och resonemang för den AI-genererade etiketten.

Användningsfall

Avsedda användningsområden

Säkerhetsutvärderingarna är inte avsedda att användas för något annat syfte än att utvärdera innehållsrisker och sårbarheter i jailbreak i ditt generativa AI-program:

Utvärdera din generativa AI-programfördistribution: Med hjälp av utvärderingsguiden i Azure AI Studio eller Azure AI Python SDK kan säkerhetsutvärderingar utvärderas på ett automatiserat sätt för att utvärdera potentiellt innehåll eller säkerhetsrisker.
Utöka dina red-teaming-åtgärder: Med hjälp av den kontradiktoriska simulatorn kan säkerhetsutvärderingar simulera kontradiktoriska interaktioner med ditt generativa AI-program för att försöka upptäcka innehålls- och säkerhetsrisker.
Kommunicera innehåll och säkerhetsrisker till intressenter: Med Hjälp av Azure AI Studio kan du dela åtkomst till ditt Azure AI Studio-projekt med säkerhetsutvärderingsresultat med granskare eller efterlevnadsintressenter.

Överväganden när du väljer ett användningsfall

Vi uppmuntrar kunderna att använda Azure AI Studio-säkerhetsutvärderingar i sina innovativa lösningar eller program. Här är dock några saker att tänka på när du väljer ett användningsfall:

Valv ty utvärderingar bör innehålla human-in-the-loop: Med hjälp av automatiserade utvärderingar som Azure AI Studio säkerhetsutvärderingar bör inkludera mänskliga granskare, till exempel domänexperter för att bedöma om ditt generativa AI-program har testats noggrant före distributionen till slutanvändare.
Valv ty utvärderingar inkluderar inte total omfattande täckning: Även om säkerhetsutvärderingar kan ge ett sätt att utöka testningen för potentiellt innehåll eller säkerhetsrisker, var den inte utformad för att ersätta manuella röda teamindelningsåtgärder som är specifikt inriktade på programmets domän, användningsfall och typ av slutanvändare.
Scenarier som stöds:
- För simulering av motgångar: Frågesvar, chatt med flera svängar, sammanfattning, sökning, textomskrivning, ogrundat och jordat innehåll.
- För automatiserad anteckning: Svar på frågor och chatt med flera svängar.
Tjänsten används för närvarande bäst med den engelska domänen endast för textgenerationer. Ytterligare funktioner, inklusive stöd för flera modeller, kommer att övervägas för framtida versioner.
Täckningen av innehållsrisker som tillhandahålls i säkerhetsutvärderingarna ingår i ett begränsat antal marginaliserade grupper och ämnen:
- Måttet hat och orättvisa omfattar viss täckning för ett begränsat antal marginaliserade grupper för den demografiska faktorn av kön (till exempel män, kvinnor, icke-binära personer) och ras, anor, etnicitet och nationalitet (till exempel svart, mexikansk, europeisk). Alla marginaliserade grupper i kön och ras, anor, etnicitet och nationalitet omfattas inte. Andra demografiska faktorer som är relevanta för hat och orättvisa har för närvarande inte täckning (till exempel funktionshinder, sexualitet, religion).
- Måtten för sexuellt, våldsamt och självskaderelaterat innehåll baseras på en preliminär konceptualisering av dessa skador som är mindre utvecklade än hat och orättvisa. Det innebär att vi kan göra mindre starka anspråk på mättäckning och hur väl mätningarna representerar de olika sätt som dessa skador kan uppstå på. Täckningen för dessa innehållstyper omfattar ett begränsat antal ämnen som rör sex (till exempel sexuellt våld, relationer, sexuella handlingar), våld (till exempel övergrepp, skada andra, kidnappning) och självskadebeteende (till exempel avsiktlig död, avsiktlig självskada, ätstörningar).
Säkerhetsutvärderingar i Azure AI Studio tillåter för närvarande inte plugin-program eller utökningsbarhet.
För att hålla kvaliteten uppdaterad och förbättra täckningen strävar vi efter en takt av framtida versioner av förbättringar av tjänstens kontradiktoriska simulerings- och anteckningsfunktioner.

Tekniska begränsningar, driftfaktorer och intervall

Området för stora språkmodeller (LLM) fortsätter att utvecklas i snabb takt, vilket kräver kontinuerlig förbättring av utvärderingstekniker för att säkerställa säker och tillförlitlig AI-systemdistribution. Säkerhetsutvärderingar i Azure AI Studio återspeglar Microsofts åtagande att fortsätta att förnya inom OMRÅDET FÖR LLM-utvärdering. Vi strävar efter att tillhandahålla det bästa verktyget för att hjälpa dig att utvärdera säkerheten för dina generativa AI-program, men att känna igen effektiv utvärdering är ett kontinuerligt pågående arbete.
Anpassningen av Säkerhetsutvärderingar i Azure AI Studio är för närvarande begränsad. Vi förväntar oss bara att användarna tillhandahåller sin generativa AI-programslutpunkt för indata och att vår tjänst matar ut en statisk datauppsättning som är märkt för innehållsrisk.
Slutligen bör det noteras att det här systemet inte automatiserar några åtgärder eller uppgifter, det ger bara en utvärdering av dina generativa AI-programutdata, som bör granskas av en mänsklig beslutsfattare i loopen innan du väljer att distribuera generativ AI-programmet eller systemet till produktion för slutanvändare.

Systemprestanda

Metodtips för att förbättra systemprestanda

När du redovisar din domän, som kan behandla visst innehåll mer känsligt än andra, bör du överväga att justera tröskelvärdet för att beräkna defektfrekvensen.
När du använder de automatiserade säkerhetsutvärderingarna kan det ibland finnas ett fel i dina AI-genererade etiketter för allvarlighetsgraden för en innehållsrisk eller dess resonemang. Det finns en manuell mänsklig feedbackkolumn som möjliggör mänsklig validering i loopen av de automatiserade resultaten av säkerhetsutvärderingen.

Utvärdering av säkerhetsutvärderingar i Azure AI Studio

Utvärderingsmetoder

För alla typer av innehållsrisker som stöds har vi internt kontrollerat kvaliteten genom att jämföra graden av ungefärliga matchningar mellan mänskliga etiketter med hjälp av en allvarlighetsgrad på 0–7 och säkerhetsutvärderingarnas automatiserade anteckningar med en allvarlighetsgrad på 0–7 på samma datauppsättningar. För varje riskområde hade vi både mänskliga etiketter och en automatiserad anteckningsetikett 500 engelska, ensvängstexter. De mänskliga etiketterna och den automatiserade anteckningen använde inte exakt samma versioner av anteckningsriktlinjerna. medan den automatiserade anteckningens riktlinjer härrörde från riktlinjerna för människor, har de sedan dess avvikande i varierande grad (med riktlinjerna för hat och orättvisa som har avvikande mest). Trots dessa små till måttliga skillnader anser vi att det fortfarande är användbart att dela allmänna trender och insikter från vår jämförelse av ungefärliga matchningar. I våra jämförelser letade vi efter matchningar med en tolerans på 2 nivåer (där den mänskliga etiketten matchade etiketten för automatiserade anteckningar exakt eller låg inom 2 nivåer över eller under i allvarlighetsgrad), matchar med en tolerans på 1 nivå och matchar med en tolerans på 0 nivåer.

Utvärderingsresultat

Totalt sett såg vi en hög frekvens av ungefärliga matchningar över riskerna med självskadebeteende och sexuellt innehåll över alla toleransnivåer. För våld och hat och orättvisa var den ungefärliga matchningsgraden över toleransnivåerna lägre. Dessa resultat berodde delvis på ökade skillnader i riktlinjeinnehåll för anteckningar för mänskliga etiketter jämfört med automatiserad anteckning, och delvis på grund av den ökade mängden innehåll och komplexitet i specifika riktlinjer.

Även om våra jämförelser är mellan entiteter som används något till måttligt olika anteckningsriktlinjer (och därför inte är standardjämförelser med mänsklig modell), ger dessa jämförelser en uppskattning av den kvalitet som vi kan förvänta oss av Azure AI Studio-säkerhetsutvärderingar med tanke på parametrarna i dessa jämförelser. Mer specifikt tittade vi bara på engelska exempel, så våra resultat kanske inte generaliseras till andra språk. Dessutom bestod varje datamängdsexempel bara av en enda tur, och därför behövs fler experiment för att verifiera generaliserbarheten för våra utvärderingsresultat till scenarier med flera turer (till exempel en fram och tillbaka-konversation, inklusive användarfrågor och systemsvar). De typer av exempel som används i dessa utvärderingsdatauppsättningar kan också i hög grad påverka den ungefärliga matchningsfrekvensen mellan mänskliga etiketter och en automatiserad anteckning – om exemplen är lättare att märka (till exempel om alla exempel är fria från innehållsrisker) kan vi förvänta oss att den ungefärliga matchningsfrekvensen är högre. Kvaliteten på mänskliga etiketter för en utvärdering kan också påverka generaliseringen av våra resultat.

Utvärdera och integrera Azure AI Studio-säkerhetsutvärderingar för din användning

Mätning och utvärdering av ditt generativa AI-program är en viktig del av en holistisk metod för hantering av AI-risker. Säkerhetsutvärderingar i Azure AI Studio kompletterar och bör användas tillsammans med andra metoder för HANTERING av AI-risker. Domänexperter och granskare av mänskliga in-the-loopar bör tillhandahålla korrekt tillsyn när de använder AI-assisterad säkerhetsutvärdering i generativ AI-programdesign, utveckling och distributionscykel. Du bör förstå begränsningarna och den avsedda användningen av säkerhetsutvärderingarna och vara noga med att inte förlita dig på utdata som produceras av Azure AI Studio AI-assisterade säkerhetsutvärderingar isolerat.

På grund av den icke-deterministiska karaktären hos LLM:erna kan du uppleva falska negativa eller positiva resultat, till exempel en hög allvarlighetsgrad av våldsamt innehåll som poängsätts som "mycket lågt" eller "lågt". Dessutom kan utvärderingsresultat ha olika betydelser för olika målgrupper. Säkerhetsutvärderingar kan till exempel generera en etikett för "låg" allvarlighetsgrad för våldsamt innehåll som kanske inte överensstämmer med en mänsklig granskares definition av hur allvarligt det specifika våldsamma innehållet kan vara. I Azure AI Studio ger vi en mänsklig feedbackkolumn med tummen upp och tummen ner när du visar dina utvärderingsresultat för att visa vilka instanser som godkänts eller flaggats som felaktiga av en mänsklig granskare. Överväg kontexten för hur dina resultat kan tolkas för beslutsfattande av andra som du kan dela utvärdering med och validera dina utvärderingsresultat med lämplig granskningsnivå för risknivån i miljön som varje generativ AI-program arbetar i.

Dela via