Transparantienotitie voor veiligheidsevaluaties van Azure AI Studio

Artikel
10/16/2024

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Wat is een transparantienotitie?

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Voor het maken van een systeem dat geschikt is voor het beoogde doel, moet u begrijpen hoe de technologie werkt, wat de mogelijkheden en beperkingen zijn en hoe u de beste prestaties kunt bereiken. De transparantienotities van Microsoft zijn bedoeld om u te helpen begrijpen hoe onze AI-technologie werkt, de keuzes die systeemeigenaren kunnen maken die invloed kunnen hebben op de prestaties en het gedrag van het systeem, en het belang van het nadenken over het hele systeem, met inbegrip van de technologie, de mensen en de omgeving. U kunt Transparantienotities gebruiken bij het ontwikkelen of implementeren van uw eigen systeem, of deze delen met de personen die door uw systeem worden gebruikt of beïnvloed.

De transparantienotities van Microsoft maken deel uit van een bredere inspanning van Microsoft om onze AI-principes in de praktijk te brengen. Zie de Microsoft AI-principes voor meer informatie.

De basisprincipes van azure AI Studio-veiligheidsevaluaties

Inleiding

Met de veiligheidsevaluaties van Azure AI Studio kunnen gebruikers de uitvoer van hun generatieve AI-toepassing evalueren op tekstuele inhoudsrisico's: haatvolle en oneerlijke inhoud, seksuele inhoud, gewelddadige inhoud, zelfverschadigende inhoud, jailbreak-kwetsbaarheid. Veiligheidsevaluaties kunnen ook helpen bij het genereren van adversarial gegevenssets om u te helpen de bewerking voor rode koppeling te versnellen en te verbeteren. Azure AI Studio-veiligheidsevaluaties weerspiegelen de toezeggingen van Microsoft om ervoor te zorgen dat AI-systemen veilig en verantwoord worden gebouwd, waarbij onze principes voor verantwoorde AI operationeel worden gemaakt.

Belangrijke termen

Haatvolle en oneerlijke inhoud verwijst naar elke taal die betrekking heeft op haat tegen of oneerlijke vertegenwoordigingen van individuen en sociale groepen, waaronder maar niet beperkt tot ras, etniciteit, nationaliteit, geslacht, seksuele geaardheid, religie, immigratiestatus, vermogen, persoonlijk uiterlijk en lichaamsgrootte. Oneerlijkheid treedt op wanneer AI-systemen sociale groepen onbehaakbaar behandelen of vertegenwoordigen, waardoor maatschappelijke onzekerheden ontstaan of bijdragen.
Seksuele inhoud omvat taal met betrekking tot anatomische organen en geslachtsdelen, romantische relaties, handelingen die worden weergegeven in erotische termen, zwangerschap, fysieke seksuele handelingen (waaronder aanval of seksueel geweld), prostitutie, pornografie en seksueel misbruik.
Gewelddadige inhoud bevat taal met betrekking tot fysieke acties die bedoeld zijn om iemand of iets te kwetsen, verwonden, beschadigen of doden. Het omvat ook beschrijvingen van wapens en wapens (en verwante entiteiten zoals fabrikanten en verenigingen).
Inhoud met betrekking tot zelfschade bevat taal die betrekking heeft op acties die bedoeld zijn om het lichaam te kwetsen, verwonden of beschadigen of zichzelf doden.
Jailbreak, directe promptaanvallen of aanvallen van gebruikerspromptinjecties verwijzen naar gebruikers die prompts manipuleren om schadelijke invoer in LLM's te injecteren om acties en uitvoer te vervormen. Een voorbeeld van een jailbreak-opdracht is een 'DAN' (Do Anything Now)-aanval, die de LLM kan misleiden in het genereren van ongepaste inhoud of het negeren van door het systeem opgelegde beperkingen.
De foutsnelheid (inhoudsrisico) wordt gedefinieerd als het percentage exemplaren in uw testgegevensset dat een drempelwaarde overschrijdt voor de ernstschaal voor de gehele grootte van de gegevensset.
Red-teaming heeft in het verleden systematische adversarial aanvallen beschreven voor het testen van beveiligingsproblemen. Met de opkomst van Large Language Models (LLM) is de term uitgebreid voorbij traditionele cyberbeveiliging en ontwikkeld in gemeenschappelijk gebruik om veel soorten tests, testen en aanvallen van AI-systemen te beschrijven. Met LLM's kan zowel goedaardig als kwaadwillend gebruik potentieel schadelijke uitvoer produceren, die veel vormen kan aannemen, waaronder schadelijke inhoud zoals haatvolle spraak, aansporing of verheerlijking van geweld, verwijzing naar zelfverschadigende inhoud of seksuele inhoud.

Functies

Systeemgedrag

Azure AI Studio richt een Azure OpenAI GPT-4-model in en organiseert adversarial aanvallen op uw toepassing om een testgegevensset met hoge kwaliteit te genereren. Vervolgens richt het een ander GPT-4-model in om aantekeningen te maken bij uw testgegevensset voor inhoud en beveiliging. Gebruikers bieden hun generatieve AI-toepassingseindpunt dat ze willen testen en de veiligheidsevaluaties zullen een statische testgegevensset uitvoeren op basis van dat eindpunt, samen met het inhoudsrisicolabel (Zeer laag, Laag, Gemiddeld, Hoog) en redenering voor het door AI gegenereerde label.

Gebruiksgevallen

Beoogde gebruik

De veiligheidsevaluaties zijn niet bedoeld voor andere doeleinden dan voor het evalueren van inhoudsrisico's en jailbreak-beveiligingsproblemen van uw generatieve AI-toepassing:

Evaluatie van uw generatieve AI-toepassing vooraf implementatie: Met behulp van de evaluatiewizard in Azure AI Studio of de Azure AI Python SDK kunnen veiligheidsevaluaties op een geautomatiseerde manier beoordelen om potentiële inhouds- of beveiligingsrisico's te evalueren.
Het uitbreiden van uw red-teaming-bewerkingen: met behulp van de adversarial simulator kunnen veiligheidsevaluaties adversarial interacties simuleren met uw generatieve AI-toepassing om inhoud en beveiligingsrisico's te ontdekken.
Het communiceren van inhoud en beveiligingsrisico's aan belanghebbenden: Met behulp van Azure AI Studio kunt u toegang tot uw Azure AI Studio-project delen met resultaten van veiligheidsevaluaties met auditors of belanghebbenden op het gebied van naleving.

Overwegingen bij het kiezen van een use-case

We moedigen klanten aan gebruik te maken van azure AI Studio-veiligheidsevaluaties in hun innovatieve oplossingen of toepassingen. Hier volgen echter enkele overwegingen bij het kiezen van een use-case:

Veiligheidsevaluaties moeten human-in-the-loop bevatten: het gebruik van geautomatiseerde evaluaties zoals Azure AI Studio-veiligheidsevaluaties moet menselijke revisoren bevatten, zoals domeinexperts, om te beoordelen of uw generatieve AI-toepassing grondig is getest voordat ze worden geïmplementeerd voor eindgebruikers.
Veiligheidsevaluaties omvatten geen totale uitgebreide dekking: hoewel veiligheidsevaluaties een manier kunnen bieden om uw tests te verbeteren voor mogelijke inhoud of beveiligingsrisico's, is het niet ontworpen om handmatige bewerkingen voor rode koppeling te vervangen die specifiek zijn afgestemd op het domein, de use cases en het type eindgebruikers van uw toepassing.
Ondersteunde scenario's:
- Voor adversarial simulatie: Vragen beantwoorden, multi-turn chat, samenvatting, zoeken, tekst herschrijven, ongeaarde en geaarde inhoud genereren.
- Voor geautomatiseerde aantekening: Vragen beantwoorden en chatten met meerdere bochten.
De service wordt momenteel het beste gebruikt met het Engelse domein voor tekstuele generaties. Aanvullende functies, waaronder ondersteuning voor meerdere modellen, worden in aanmerking genomen voor toekomstige releases.
De dekking van inhoudsrisico's die in de veiligheidsevaluaties worden verstrekt, wordt onderverdeeld in een beperkt aantal gemarginaliseerde groepen en onderwerpen:
- De metrische gegevens over haat en oneerlijkheid omvatten een beperkt aantal gemarginaliseerde groepen voor de demografische factor van geslacht (bijvoorbeeld mannen, vrouwen, niet-binaire mensen) en ras, afkomst, etniciteit en nationaliteit (bijvoorbeeld Zwart, Mexicaans, Europees). Niet alle gemarginaliseerde groepen in geslacht en ras, afkomst, etniciteit en nationaliteit worden behandeld. Andere demografische factoren die relevant zijn voor haat en oneerlijkheid hebben momenteel geen dekking (bijvoorbeeld handicap, seksualiteit, religie).
- De metrische gegevens voor seksuele, gewelddadige en zelfverschadigende inhoud zijn gebaseerd op een voorlopige conceptualisatie van deze schades die minder ontwikkeld zijn dan haat en oneerlijkheid. Dit betekent dat we minder sterke claims kunnen maken over meetdekking en hoe goed de metingen de verschillende manieren vertegenwoordigen waarop deze schade kan optreden. Dekking voor deze inhoudstypen omvat een beperkt aantal onderwerpen die betrekking hebben op seks (bijvoorbeeld seksueel geweld, relaties, seksuele handelingen), geweld (bijvoorbeeld misbruik, verwonding van anderen, ontvoering) en zelfschade (bijvoorbeeld opzettelijke dood, opzettelijke zelfverwonding, eetstoornissen).
Azure AI Studio-veiligheidsevaluaties maken momenteel geen invoegtoepassingen of uitbreidbaarheid mogelijk.
Om de kwaliteit up-to-date te houden en de dekking te verbeteren, streven we naar een cadans van toekomstige versies van verbetering van de adversarial simulatie en annotatiemogelijkheden van de service.

Technische beperkingen, operationele factoren en bereiken

Het gebied van grote taalmodellen (LLM's) blijft zich in een snel tempo ontwikkelen, waarbij continue verbetering van evaluatietechnieken nodig is om een veilige en betrouwbare implementatie van ai-systemen te garanderen. Azure AI Studio-veiligheidsevaluaties weerspiegelen de toezegging van Microsoft om te blijven innoveren op het gebied van LLM-evaluatie. We streven ernaar de beste tooling te bieden om u te helpen bij het evalueren van de veiligheid van uw generatieve AI-toepassingen, maar het herkennen van effectieve evaluatie is een doorlopend werk dat wordt uitgevoerd.
De aanpassing van de veiligheidsevaluaties van Azure AI Studio is momenteel beperkt. We verwachten alleen dat gebruikers hun invoergeneratieve AI-toepassingseindpunt leveren en onze service levert een statische gegevensset op die is gelabeld voor inhoudsrisico's.
Ten slotte moet worden opgemerkt dat dit systeem geen acties of taken automatiseert, het biedt alleen een evaluatie van de uitvoer van uw generatieve AI-toepassing, die moet worden beoordeeld door een menselijke beslisser in de lus voordat u ervoor kiest om de generatieve AI-toepassing of het systeem in productie te implementeren voor eindgebruikers.

Systeemprestaties

Aanbevolen procedures voor het verbeteren van systeemprestaties

Wanneer u rekening houdt met uw domein, dat bepaalde inhoud gevoeliger kan behandelen dan andere, kunt u overwegen de drempelwaarde voor het berekenen van het defectpercentage aan te passen.
Wanneer u de geautomatiseerde veiligheidsevaluaties gebruikt, kan er soms een fout optreden in uw door AI gegenereerde labels voor de ernst van een inhoudsrisico of de redenering ervan. Er is een handmatige kolom voor menselijke feedback om validatie van de geautomatiseerde veiligheidsevaluatieresultaten mogelijk te maken.

Evaluatie van azure AI Studio-veiligheidsevaluaties

Evaluatiemethoden

Voor alle ondersteunde typen inhoudsrisico's hebben we de kwaliteit intern gecontroleerd door de frequentie van geschatte overeenkomsten tussen menselijke labelers te vergelijken met behulp van een ernstschaal van 0-7 en de geautomatiseerde annotator van de veiligheidsevaluaties, ook met behulp van een ernstschaal van 0-7 op dezelfde gegevenssets. Voor elk risicogebied hadden we zowel menselijke labelers als een geautomatiseerd annotatorlabel 500 Engelse, single-turn teksten. De menselijke labelers en de geautomatiseerde aantekeningen gebruikten niet precies dezelfde versies van de aantekeningenrichtlijnen; hoewel de richtlijnen van de geautomatiseerde annotator afkomstig zijn van de richtlijnen voor mensen, zijn ze sindsdien in verschillende mate afgeleid (met de richtlijnen voor haat en oneerlijkheid die het meest zijn afgeleid). Ondanks deze lichte tot gematigde verschillen, zijn we van mening dat het nog steeds nuttig is om algemene trends en inzichten te delen uit onze vergelijking van bij benadering overeenkomende overeenkomsten. In onze vergelijkingen hebben we gezocht naar overeenkomsten met een tolerantie van 2 niveaus (waarbij het menselijke label exact overeenkomt met het geautomatiseerde annotatorlabel of binnen 2 niveaus boven of onder de ernst), overeenkomt met een tolerantie van 1 niveau en overeenkomt met een 0-niveautolerantie.

Evaluatieresultaten

Over het algemeen zagen we een hoge frequentie van geschatte overeenkomsten in de risico's van zelfbeschadiging en seksuele inhoud voor alle tolerantieniveaus. Voor geweld en voor haat en oneerlijkheid was het geschatte matchpercentage tussen tolerantieniveaus lager. Deze resultaten waren deels te wijten aan een toegenomen afwijking in de inhoud van aantekeningenrichtlijnen voor menselijke labelers versus geautomatiseerde annotator, en deels vanwege de toegenomen hoeveelheid inhoud en complexiteit in specifieke richtlijnen.

Hoewel onze vergelijkingen bestaan tussen entiteiten die enigszins worden gebruikt om enigszins verschillende richtlijnen voor aantekeningen aan te geven (en dus geen standaard vergelijkingen tussen menselijke modellen zijn), bieden deze vergelijkingen een schatting van de kwaliteit die we kunnen verwachten van de veiligheidsevaluaties van Azure AI Studio op basis van de parameters van deze vergelijkingen. In het bijzonder hebben we alleen naar Engelse voorbeelden gekeken, dus onze bevindingen generaliseren mogelijk niet naar andere talen. Bovendien bestond elk gegevenssetvoorbeeld uit slechts één keer, en dus zijn er meer experimenten nodig om de generaliseerbaarheid van onze evaluatieresultaten te controleren op scenario's met meerdere paden (bijvoorbeeld een back-and-forth-gesprek, waaronder gebruikersquery's en systeemreacties). De typen voorbeelden die in deze evaluatiegegevenssets worden gebruikt, kunnen ook van grote invloed zijn op de geschatte matchfrequentie tussen menselijke labels en een geautomatiseerde annotator. Als voorbeelden gemakkelijker te labelen zijn (bijvoorbeeld als alle voorbeelden vrij zijn van inhoudsrisico's), kunnen we verwachten dat de geschatte matchfrequentie hoger is. De kwaliteit van menselijke labels voor een evaluatie kan ook van invloed zijn op de generalisatie van onze bevindingen.

Evaluatie en integratie van Azure AI Studio-veiligheidsevaluaties voor uw gebruik

Meting en evaluatie van uw generatieve AI-toepassing vormen een essentieel onderdeel van een holistische benadering van AI-risicobeheer. Azure AI Studio-veiligheidsevaluaties zijn een aanvulling op en moeten worden gebruikt in combinatie met andere procedures voor AI-risicobeheer. Domeinexperts en revisoren in de loop moeten een goed toezicht bieden bij het gebruik van ai-ondersteunde veiligheidsevaluaties in het ontwerp, de ontwikkeling en de implementatiecyclus van ai-toepassingen. U moet de beperkingen en het beoogde gebruik van de veiligheidsevaluaties begrijpen, waarbij u voorzichtig bent dat u niet vertrouwt op uitvoer die door AI Studio AI-ondersteunde veiligheidsevaluaties in isolatie worden geproduceerd.

Vanwege de niet-deterministische aard van de LLM's kunnen fout-negatieve of positieve resultaten optreden, zoals een hoog ernstniveau van gewelddadige inhoud die is beoordeeld als 'zeer laag' of 'laag'. Daarnaast kunnen evaluatieresultaten verschillende betekenissen hebben voor verschillende doelgroepen. Veiligheidsevaluaties kunnen bijvoorbeeld een label genereren voor 'lage' ernst van gewelddadige inhoud die mogelijk niet overeenkomt met de definitie van een menselijke revisor van hoe ernstig die specifieke gewelddadige inhoud kan zijn. In Azure AI Studio bieden we een kolom met menselijke feedback met duimen omhoog en duim omlaag bij het bekijken van uw evaluatieresultaten om aan te geven welke instanties zijn goedgekeurd of gemarkeerd als onjuist door een menselijke revisor. Houd rekening met de context van hoe uw resultaten kunnen worden geïnterpreteerd voor besluitvorming door anderen waarmee u de evaluatieresultaten kunt delen en valideren met het juiste controleniveau voor het risiconiveau in de omgeving waarin elke generatieve AI-toepassing werkt.

Delen via