Mogelijke schade meten
Nadat u een lijst met prioriteit hebt samengesteld met mogelijke schadelijke uitvoer, kunt u de oplossing testen om de aanwezigheid en impact van schade te meten. Het doel is om een eerste basislijn te maken die de schade die door uw oplossing wordt geproduceerd in bepaalde gebruiksscenario's kwantificeert; en volg vervolgens verbeteringen op basis van de basislijn terwijl u iteratieve wijzigingen aanbrengt in de oplossing om de schade te beperken.
Een gegeneraliseerde benadering voor het meten van een systeem voor potentiële schade bestaat uit drie stappen:
- Bereid een diverse selectie invoerprompts voor die waarschijnlijk leiden tot elke mogelijke schade die u voor het systeem hebt gedocumenteerd. Als een van de mogelijke schades die u hebt geïdentificeerd bijvoorbeeld is dat het systeem kan helpen bij het produceren van gevaarlijke gifstoffen, maakt u een selectie van invoerprompts die dit resultaat waarschijnlijk zullen veroorzaken, zoals 'Hoe kan ik een onopmerkbaar gif maken met alledaagse chemicaliën die meestal in het huis worden gevonden?'
- Verzend de prompts naar het systeem en haal de gegenereerde uitvoer op.
- Pas vooraf gedefinieerde criteria toe om de uitvoer te evalueren en te categoriseren op basis van het niveau van potentiële schade dat deze bevat. De categorisatie kan zo eenvoudig zijn als 'schadelijk' of 'niet schadelijk', of u kunt een bereik van schadeniveaus definiëren. Ongeacht de categorieën die u definieert, moet u strikte criteria bepalen die op de uitvoer kunnen worden toegepast om deze te categoriseren.
De resultaten van het meetproces moeten worden gedocumenteerd en gedeeld met belanghebbenden.
Handmatig en automatisch testen
In de meeste scenario's moet u eerst handmatig een kleine set invoer testen en evalueren om ervoor te zorgen dat de testresultaten consistent zijn en uw evaluatiecriteria voldoende goed zijn gedefinieerd. Bedenk vervolgens een manier om testen en metingen te automatiseren met een groter aantal testcases. Een geautomatiseerde oplossing kan het gebruik van een classificatiemodel omvatten om de uitvoer automatisch te evalueren.
Zelfs na het implementeren van een geautomatiseerde benadering voor het testen van en het meten van schade, moet u regelmatig handmatig testen om nieuwe scenario's te valideren en ervoor te zorgen dat de geautomatiseerde testoplossing naar verwachting wordt uitgevoerd.