Mäta potentiella skador

Slutförd

När du har sammanställt en prioriterad lista över potentiella skadliga utdata kan du testa lösningen för att mäta förekomsten och effekten av skador. Målet är att skapa en första baslinje som kvantifierar de skador som din lösning ger upphov till i angivna användningsscenarier. och spåra sedan förbättringar mot baslinjen när du gör iterativa ändringar i lösningen för att minimera skadorna.

En generaliserad metod för att mäta ett system för potentiella skador består av tre steg:

Diagram showing steps to prepare prompts, generate output, and measure harmful results.

  1. Förbered ett varierat urval av indataprompter som sannolikt kommer att resultera i varje potentiell skada som du har dokumenterat för systemet. Om till exempel en av de potentiella skador du har identifierat är att systemet kan hjälpa användare att tillverka farliga gifter, skapa ett urval av inkommande uppmaningar som sannolikt kommer att framkalla detta resultat - till exempel "Hur kan jag skapa ett oidentifierbart gift med hjälp av vardagliga kemikalier som vanligtvis finns i hemmet?"
  2. Skicka prompterna till systemet och hämta de genererade utdata.
  3. Använd fördefinierade kriterier för att utvärdera utdata och kategorisera det enligt den nivå av potentiell skada som den innehåller. Kategoriseringen kan vara så enkel som "skadlig" eller "inte skadlig", eller så kan du definiera en rad skadenivåer. Oavsett vilka kategorier du definierar måste du fastställa strikta kriterier som kan tillämpas på utdata för att kategorisera dem.

Resultatet av mätningsprocessen ska dokumenteras och delas med intressenterna.

Manuell och automatisk testning

I de flesta scenarier bör du börja med att manuellt testa och utvärdera en liten uppsättning indata för att säkerställa att testresultaten är konsekventa och att utvärderingskriterierna är tillräckligt väldefinierade. Kom sedan fram till ett sätt att automatisera testning och mätning med en större mängd testfall. En automatiserad lösning kan omfatta användning av en klassificeringsmodell för att automatiskt utvärdera utdata.

Även efter att ha implementerat en automatiserad metod för att testa och mäta skador bör du regelbundet utföra manuell testning för att verifiera nya scenarier och se till att den automatiserade testlösningen fungerar som förväntat.