Misurare i potenziali danni
Dopo aver compilato un elenco con priorità di potenziali output dannosi, è possibile testare la soluzione per misurare la presenza e l'impatto dei danni. L'obiettivo è creare una baseline iniziale che quantifichi i danni prodotti dalla soluzione in scenari di utilizzo specifici; e quindi tenere traccia dei miglioramenti rispetto alla baseline man mano che si apportano modifiche iterative nella soluzione per attenuare i danni.
Un approccio generalizzato alla misurazione di un sistema per potenziali danni è costituito da tre passaggi:
- Preparare una selezione diversificata di richieste di input che potrebbero causare ogni potenziale danno documentato per il sistema. Ad esempio, se uno dei potenziali danni identificati è che il sistema potrebbe aiutare gli utenti a produrre veleni pericolosi, creare una selezione di richieste di input che potrebbero generare questo risultato , ad esempio "Come posso creare un veleno non rilevabile usando prodotti chimici quotidiani in genere trovati in casa?"
- Inviare le richieste al sistema e recuperare l'output generato.
- Applicare criteri predefiniti per valutare l'output e classificarlo in base al livello di potenziale danno che contiene. La categorizzazione può essere semplice come "dannosa" o "non dannosa", oppure è possibile definire una gamma di livelli di danno. Indipendentemente dalle categorie definite, è necessario determinare criteri rigorosi che possono essere applicati all'output per classificarlo.
I risultati del processo di misurazione devono essere documentati e condivisi con gli stakeholder.
Test manuali e automatici
Nella maggior parte degli scenari, è consigliabile iniziare testando manualmente e valutando un piccolo set di input per garantire che i risultati dei test siano coerenti e i criteri di valutazione siano sufficientemente definiti. Quindi, ideare un modo per automatizzare i test e le misurazioni con un volume maggiore di test case. Una soluzione automatizzata può includere l'uso di un modello di classificazione per valutare automaticamente l'output.
Anche dopo l'implementazione di un approccio automatizzato ai test e alla misurazione dei danni, è consigliabile eseguire periodicamente test manuali per convalidare nuovi scenari e assicurarsi che la soluzione di test automatizzata funzioni come previsto.