Microsoft Foundry risico- en veiligheidsevaluaties Transparantie Opmerking

Wat is een transparantienotitie?

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Voor het maken van een systeem dat geschikt is voor het beoogde doel, moet u begrijpen hoe de technologie werkt, wat de mogelijkheden en beperkingen zijn en hoe u de beste prestaties kunt bereiken. de transparantienotities van Microsoft zijn bedoeld om inzicht te krijgen in de werking van onze AI-technologie, de keuzes die systeemeigenaren kunnen maken die de prestaties en het gedrag van het systeem beïnvloeden, en het belang van nadenken over het hele systeem, met inbegrip van de technologie, de mensen en de omgeving. U kunt Transparantienotities gebruiken bij het ontwikkelen of implementeren van uw eigen systeem, of deze delen met de personen die door uw systeem worden gebruikt of beïnvloed.

de transparantienotities van Microsoft maken deel uit van een bredere inspanning op Microsoft om onze AI-principes in de praktijk te brengen. Zie de Microsoft AI-principes voor meer informatie.

De basisbeginselen van Microsoft Risico- en veiligheidsevaluaties van Foundry

Inleiding

Modellen die rechtstreeks door Azure worden verkocht, zijn geëvalueerd door Microsoft op basis van de verantwoordelijke AI-standaarden van Microsoft. Alle andere modellen, waaronder maar niet beperkt tot Anthropic-modellen en Open-modellen die afkomstig zijn van Hugging Face Hub of Vuurwerk AI, zijn niet-Microsoft Producten onder de Productvoorwaarden en zijn niet geëvalueerd door Microsoft.

Of een model rechtstreeks wordt verkocht door Azure of een niet-Microsoft Product is, klanten moeten hun eigen risico- en veiligheidsevaluaties uitvoeren. Met de risico- en veiligheidsevaluaties van The Foundry kunnen gebruikers de output van hun generatieve AI-toepassing evalueren op risico's met betrekking tot tekstuele inhoud: haatdragende en oneerlijke inhoud, seksuele inhoud, gewelddadige inhoud, zelfbeschadigende inhoud, directe en indirecte kwetsbaarheden voor jailbreaks en beschermd materiaal in de inhoud. Veiligheidsevaluaties kunnen ook helpen bij het genereren van adversariële gegevenssets om u te helpen de red-teaming operatie te versnellen en te verbeteren. Evaluaties van foundry-veiligheid weerspiegelen de toezeggingen van Microsoft om ervoor te zorgen dat AI-systemen veilig en verantwoord worden gebouwd, waarbij onze principes voor verantwoorde AI operationeel worden gemaakt.

Belangrijkste termen

Haatvolle en oneerlijke inhoud (voor tekst en afbeeldingen) verwijst naar elke taal of beeld die betrekking heeft op haat tegen of oneerlijke representaties van individuen en sociale groepen, waaronder maar niet beperkt tot ras, etniciteit, nationaliteit, geslacht, seksuele oriëntatie, religie, immigratiestatus, vermogen, persoonlijk uiterlijk en lichaamsgrootte. Oneerlijkheid treedt op wanneer AI-systemen sociale groepen onbehaakbaar behandelen of vertegenwoordigen, waardoor maatschappelijke onzekerheden ontstaan of bijdragen.
Seksuele inhoud (voor tekst en afbeeldingen) omvat taal of beeldmateriaal met betrekking tot anatomische organen en geslachtsdelen, romantische relaties, handelingen die worden weergegeven in erotische termen, zwangerschap, fysieke seksuele handelingen (waaronder aanval of seksueel geweld), prostitutie, pornografie en seksueel misbruik.
Gewelddadige inhoud (voor tekst en afbeeldingen) bevat taal of afbeeldingen die betrekking hebben op fysieke acties die bedoeld zijn om iemand of iets te kwetsen, verwonden, beschadigen of doden. Het omvat ook beschrijvingen van wapens en vuurwapens (en verwante entiteiten zoals fabrikanten en verenigingen).
Zelfschadegerelateerde inhoud (voor tekst en afbeeldingen) bevat taal of beeldmateriaal met betrekking tot acties die bedoeld zijn om iemands lichaam te kwetsen, verwonden of beschadigen of zichzelf te doden.
Beveiligde materiaalinhoud (voor tekst) bevat bekende tekstuele inhoud, bijvoorbeeld liedteksten, artikelen, recepten en geselecteerde webinhoud, die mogelijk wordt uitgevoerd door grote taalmodellen. Door de weergave van beschermd materiaal te detecteren en te voorkomen, kunnen organisaties de naleving van intellectuele-eigendomsrechten behouden en de originaliteit van inhoud behouden.
Beveiligde materiaalinhoud (voor afbeeldingen) verwijst naar bepaalde beveiligde visuele inhoud die wordt beschermd door copyright, zoals logo's en merken, kunstwerken of fictieve personages. Het systeem maakt gebruik van een basismodel voor afbeeldingen naar tekst om te bepalen of dergelijke inhoud aanwezig is.
Directe jailbreak-, directe promptaanvallen of aanvallen van gebruikersprompts verwijzen naar gebruikers die prompts manipuleren om schadelijke invoer in LLM's te injecteren om acties en uitvoer te vervormen. Een voorbeeld van een jailbreak-opdracht is een 'DAN' (Do Anything Now)-aanval, die de LLM kan misleiden in het genereren van ongepaste inhoud of het negeren van door het systeem opgelegde beperkingen.
Indirecte jailbreak-, indirecte promptaanvallen of promptinjectieaanvallen tussen domeinen verwijzen naar het geval waarin schadelijke instructies worden verborgen in gegevens die door een AI-systeem worden verwerkt of waarop gebaseerde inhoud wordt gegenereerd. Deze gegevens kunnen e-mailberichten, documenten, websites of andere bronnen bevatten die niet rechtstreeks zijn geschreven door de ontwikkelaar of gebruiker en kunnen leiden tot het genereren van ongepaste inhoud of het negeren van door het systeem opgelegde beperkingen.
De foutsnelheid (inhoudsrisico) wordt gedefinieerd als het percentage exemplaren in uw testgegevensset dat een drempelwaarde overschrijdt voor de ernstschaal voor de gehele grootte van de gegevensset.
Red-teaming heeft in het verleden systematische adversarial aanvallen beschreven voor het testen van beveiligingsproblemen. Met de opkomst van Large Language Models (LLM) is de term uitgebreid voorbij traditionele cyberbeveiliging en ontwikkeld in gemeenschappelijk gebruik om veel soorten tests, testen en aanvallen van AI-systemen te beschrijven. Met LLM's kan zowel goedaardig als kwaadwillend gebruik potentieel schadelijke uitvoer produceren, die veel vormen kan aannemen, waaronder schadelijke inhoud zoals haatvolle spraak, aansporing of verheerlijking van geweld, verwijzing naar zelfverschadigende inhoud of seksuele inhoud.

Mogelijkheden

Systeemgedrag

Foundry richt een nauwkeurig afgestemd Azure OpenAI GPT-4o-model in en organiseert adversarial aanvallen tegen uw toepassing om een hoogwaardige testgegevensset te genereren. Vervolgens wordt een ander GPT-4o-model ingericht om uw testgegevensset voor inhoud en beveiliging te annoteren. Gebruikers bieden hun generatieve AI-toepassingseindpunt dat ze willen testen en de veiligheidsevaluaties zullen een statische testgegevensset uitvoeren op dat eindpunt, samen met het inhoudsrisicolabel (Zeer laag, Laag, Gemiddeld, Hoog) of label voor inhoudsrisicodetectie (Waar of Onwaar) en redenering voor het door AI gegenereerde label.

Gebruiksscenario's

Beoogde gebruik

De veiligheidsevaluaties zijn niet bedoeld voor andere doeleinden dan voor het evalueren van inhoudsrisico's en jailbreak-beveiligingsproblemen van uw generatieve AI-toepassing:

Uw generatieve AI-toepassing vooraf implementeren: Met behulp van de evaluatiewizard in de Foundry-portal of de Azure AI Python SDK kunnen veiligheidsevaluaties op een geautomatiseerde manier evalueren om potentiële inhouds- of beveiligingsrisico's te evalueren.
Augmenteren van uw red-teaming-bewerkingen: Met behulp van een adversariële simulator kunnen veiligheidsbeoordelingen interacties simuleren met uw generatieve AI-toepassing om inhouds- en beveiligingsrisico's te identificeren.
Het communiceren van inhoud en beveiligingsrisico's aan belanghebbenden: Met behulp van de Foundry-portal kunt u toegang tot uw Foundry-project delen met resultaten van veiligheidsevaluaties met auditors of compliance-belanghebbenden.

Overwegingen bij het kiezen van een use-case

We moedigen klanten aan om gebruik te maken van Foundry-veiligheidsevaluaties in hun innovatieve oplossingen of toepassingen. Hier volgen echter enkele overwegingen bij het kiezen van een use-case:

Veiligheidsevaluaties moeten 'human-in-the-loop' bevatten: Voor het gebruik van geautomatiseerde evaluaties zoals Foundry-veiligheidsevaluaties moeten menselijke beoordelaars zoals domeinexperts beoordelen of uw generatieve AI-toepassing grondig is getest voordat deze voor eindgebruikers wordt geïmplementeerd.
Veiligheidsevaluaties omvatten geen totale uitgebreide dekking: hoewel veiligheidsevaluaties een manier kunnen bieden om uw tests te verbeteren voor mogelijke inhoud of beveiligingsrisico's, is het niet ontworpen om handmatige bewerkingen voor rode koppeling te vervangen die specifiek zijn afgestemd op het domein, de use cases en het type eindgebruikers van uw toepassing.
Ondersteunde scenario's:
- Voor adversarial simulatie: Vragen beantwoorden, multi-turn chat, samenvatting, zoeken, tekst herschrijven, ongeaarde en geaarde inhoud genereren.
- Voor geautomatiseerde aantekening: Vragen beantwoorden en chatten met meerdere bochten.
De service wordt momenteel het beste gebruikt met de Engelse taal voor alleen tekstgeneraties. Aanvullende functies, waaronder ondersteuning voor meerdere modellen, worden in aanmerking genomen voor toekomstige releases.
De dekking van inhoudsrisico's die in de veiligheidsevaluaties worden verstrekt, wordt onderverdeeld in een beperkt aantal gemarginaliseerde groepen en onderwerpen:
- De metrische gegevens over haat en oneerlijkheid omvatten een beperkt aantal gemarginaliseerde groepen voor de demografische factor van geslacht (bijvoorbeeld mannen, vrouwen, niet-binaire mensen) en ras, afkomst, etniciteit en nationaliteit (bijvoorbeeld Zwart, Mexicaans, Europees). Niet alle gemarginaliseerde groepen in geslacht en ras, afkomst, etniciteit en nationaliteit worden behandeld. Andere demografische factoren die relevant zijn voor haat en oneerlijkheid hebben momenteel geen dekking (bijvoorbeeld handicap, seksualiteit, religie).
- De metrische gegevens voor seksuele, gewelddadige en zelfverschadigende inhoud zijn gebaseerd op een voorlopige conceptualisatie van deze schades die minder ontwikkeld zijn dan haat en oneerlijkheid. Dit betekent dat we minder sterke claims kunnen maken over meetdekking en hoe goed de metingen de verschillende manieren vertegenwoordigen waarop deze schade kan optreden. Dekking voor deze inhoudstypen omvat een beperkt aantal onderwerpen die betrekking hebben op seks (bijvoorbeeld seksueel geweld, relaties, seksuele handelingen), geweld (bijvoorbeeld misbruik, verwonding van anderen, ontvoering) en zelfschade (bijvoorbeeld opzettelijke dood, opzettelijke zelfverwonding, eetstoornissen).
Evaluaties van foundry-veiligheid staan momenteel niet toe voor invoegtoepassingen of uitbreidbaarheid.
Om de kwaliteit actueel te houden en de dekking te verbeteren, streven we naar regelmatige releases voor verbetering van de tegenstrijdige simulatie en annotatiemogelijkheden van de service.

Technische beperkingen, operationele factoren en reikwijdtes

Het gebied van grote taalmodellen (LLM's) blijft zich in een snel tempo ontwikkelen, waarbij continue verbetering van evaluatietechnieken nodig is om een veilige en betrouwbare implementatie van ai-systemen te garanderen. Evaluaties van foundry-veiligheid weerspiegelen Microsoft's toezegging om te blijven innoveren op het gebied van LLM-evaluatie. We streven ernaar de beste tooling te bieden om u te helpen bij het evalueren van de veiligheid van uw generatieve AI-toepassingen, maar het herkennen van effectieve evaluatie is een doorlopend werk dat wordt uitgevoerd.
Aanpassing van de veiligheidsevaluaties van Foundry is momenteel beperkt. We verwachten alleen dat gebruikers hun invoergeneratieve AI-toepassingseindpunt leveren en onze service levert een statische gegevensset op die is gelabeld voor inhoudsrisico's.
Ten slotte moet worden opgemerkt dat dit systeem geen acties of taken automatiseert, het biedt alleen een evaluatie van de uitvoer van uw generatieve AI-toepassing, die moet worden beoordeeld door een menselijke beslisser in de lus voordat u ervoor kiest om de generatieve AI-toepassing of het systeem in productie te implementeren voor eindgebruikers.

Systeemprestaties

Aanbevolen procedures voor het verbeteren van systeemprestaties

Wanneer u rekening houdt met uw domein, dat bepaalde inhoud gevoeliger kan behandelen dan andere, kunt u overwegen de drempelwaarde voor het berekenen van het defectpercentage aan te passen.
Wanneer u de geautomatiseerde veiligheidsevaluaties gebruikt, kan er soms een fout optreden in uw door AI gegenereerde labels voor de ernst van een inhoudsrisico of de redenering ervan. Er is een handmatige feedbackkolom voor menselijke betrokkenheid bij de validatie van de resultaten van de geautomatiseerde veiligheidsevaluatie.

Evaluatie van de veiligheidsevaluaties van Foundry

Evaluatiemethoden

Voor alle ondersteunde typen inhoudsrisico's hebben we de kwaliteit intern gecontroleerd door de frequentie van geschatte overeenkomsten tussen menselijke labelers te vergelijken met behulp van een ernstschaal van 0-7 en de geautomatiseerde annotator van de veiligheidsevaluaties, ook met behulp van een ernstschaal van 0-7 op dezelfde gegevenssets. Voor elk risicogebied hadden we zowel menselijke labelers als een geautomatiseerde annotator 500 Engelse, enkelvoudige teksten, 250 tekst-naar-afbeelding generaties en 250 multimodale teksten met afbeelding-naar-tekst generaties. De menselijke labelers en de geautomatiseerde annotator gebruikten niet precies dezelfde versies van de annotatierichtlijnen; hoewel de richtlijnen van de geautomatiseerde annotator afkomstig waren van de richtlijnen voor mensen, zijn ze sindsdien in verschillende mate afgeweken (met de richtlijnen voor haat en oneerlijkheid die het meest zijn afgeweken). Ondanks deze lichte tot gematigde verschillen, zijn we van mening dat het nog steeds nuttig is om algemene trends en inzichten te delen uit onze vergelijking van bij benadering overeenkomende overeenkomsten. In onze vergelijkingen hebben we gezocht naar overeenkomsten met een tolerantie van 2 niveaus (waarbij het menselijke label exact overeenkomt met het geautomatiseerde annotatorlabel of binnen 2 niveaus erboven of eronder in ernst), overeenkomsten met een tolerantie van 1 niveau en overeenkomsten met een tolerantie van 0 niveaus.

Evaluatieresultaten

Over het algemeen zagen we een hoge frequentie van geschatte overeenkomsten in de risico's van zelfbeschadiging en seksuele inhoud voor alle tolerantieniveaus. Voor geweld en voor haat en oneerlijkheid was het geschatte matchpercentage tussen tolerantieniveaus lager. Deze resultaten waren deels te wijten aan een toegenomen afwijking in de inhoud van aantekeningenrichtlijnen voor menselijke labelers versus geautomatiseerde annotator, en deels vanwege de toegenomen hoeveelheid inhoud en complexiteit in specifieke richtlijnen.

Hoewel onze vergelijkingen tussen entiteiten zijn die enigszins verschillende richtlijnen voor aantekeningen hebben gebruikt (en dus geen standaard vergelijkingen tussen menselijke modellen zijn), bieden deze vergelijkingen een schatting van de kwaliteit die we kunnen verwachten van De veiligheidsevaluaties van Foundry op basis van de parameters van deze vergelijkingen. In het bijzonder hebben we alleen naar Engelse voorbeelden gekeken, dus onze bevindingen generaliseren mogelijk niet naar andere talen. Bovendien bestond elke steekproef uit de gegevensset slechts uit een enkele beurt, en daarom zijn er meer experimenten nodig om te verifiëren hoe de evaluatieresultaten generaliseren naar scenario's met meerdere beurten (zoals een dialoog inclusief gebruikersvragen en systeemantwoorden). De typen voorbeelden die in deze evaluatiegegevenssets worden gebruikt, kunnen ook van grote invloed zijn op de geschatte matchfrequentie tussen menselijke labels en een geautomatiseerde annotator. Als voorbeelden gemakkelijker te labelen zijn (bijvoorbeeld als alle voorbeelden vrij zijn van inhoudsrisico's), kunnen we verwachten dat de geschatte matchfrequentie hoger is. De kwaliteit van menselijke labels voor een evaluatie kan ook van invloed zijn op de generalisatie van onze bevindingen.

Evaluatie en integratie van Foundry-veiligheidsevaluaties voor uw gebruik

Meting en evaluatie van uw generatieve AI-toepassing vormen een essentieel onderdeel van een holistische benadering van AI-risicobeheer. Evaluatie van de veiligheid van Foundry is een aanvulling op en moet worden gebruikt in combinatie met andere ai-risicobeheerprocedures. Domeinexperts en reviewers met menselijke betrokkenheid moeten goed toezicht houden bij het gebruik van AI-ondersteunde veiligheidsbeoordelingen in het ontwerp-, ontwikkel- en implementatiecyclus van AI-toepassingen. U moet de beperkingen en het beoogde gebruik van de veiligheidsevaluaties begrijpen, waarbij u voorzichtig bent dat u niet vertrouwt op uitvoer die door Foundry AI-ondersteunde veiligheidsevaluaties in isolatie worden geproduceerd.

Vanwege de niet-deterministische aard van de LLM's kunnen foutnegatieve of foutpositieve resultaten optreden, zoals een hoog niveau van ernst bij gewelddadige inhoud die is beoordeeld als 'zeer laag' of 'laag'. Daarnaast kunnen evaluatieresultaten verschillende betekenissen hebben voor verschillende publieken. Veiligheidsevaluaties kunnen bijvoorbeeld een label genereren voor 'lage' ernst van gewelddadige inhoud die mogelijk niet overeenkomt met de definitie van een menselijke revisor van hoe ernstig die specifieke gewelddadige inhoud kan zijn. In de Foundry portal bieden we een kolom met menselijke feedback met een duim omhoog of omlaag bij het bekijken van uw evaluatieresultaten om aan te geven welke gevallen zijn goedgekeurd of gemarkeerd als onjuist door een menselijke beoordelaar. Houd rekening met de context van hoe uw resultaten kunnen worden geïnterpreteerd voor besluitvorming door anderen waarmee u de evaluatieresultaten kunt delen en valideren met het juiste controleniveau voor het risiconiveau in de omgeving waarin elke generatieve AI-toepassing werkt.