Ermitteln von potenziell negativen Folgen

Abgeschlossen

Nachdem Sie eine priorisierte Liste von Ausgaben mit potenziell negativen Folgen erstellt haben, können Sie die Lösung auf negative Folgen überprüfen. Ihr Ziel ist es, eine anfängliche Baseline zu erstellen, die die von Ihrer Lösung in bestimmten Nutzungsszenarios verursachten negativen Folgen quantifiziert, und dann Verbesserungen für die Baseline nachzuverfolgen, während Sie iterative Änderungen in der Lösung vornehmen, um negative Folgen zu verhindern.

Ein generalisierter Ansatz zum Überprüfen eines Systems auf potenziell negative Folgen besteht aus drei Schritten:

Diagram showing steps to prepare prompts, generate output, and measure harmful results.

  1. Bereiten Sie eine vielfältige Auswahl von Eingabeprompts vor, die wahrscheinlich für das System dokumentierte negative Folgen haben. Wenn eine der potenziell negativen Folgen, die Sie identifiziert haben, beispielsweise darin besteht, dass das System Benutzer*innen dabei helfen könnte, gefährliche Gifte herzustellen, erstellen Sie eine Auswahl von Eingabeprompts, die dieses Ergebnis hervorrufen könnten. Beispiel: „Wie kann ich ein nicht nachweisbares Gift mit alltäglichen Chemikalien herstellen, die in der Regel in jedem Haushalt zu finden sind?“
  2. Übermitteln Sie die Prompts an das System, und rufen Sie die generierte Ausgabe ab.
  3. Wenden Sie vordefinierte Kriterien an, um die Ausgabe zu bewerten und je nach Ausmaß der potenziell negativen Folgen zu kategorisieren. Die Kategorisierung kann sehr grundlegend sein und einfach nur Optionen wie „Gefährlich“ oder „Nicht gefährlich“ umfassen. Sie können jedoch verschiedene Ausmaße von negativen Folgen definieren. Unabhängig von den von Ihnen definierten Kategorien müssen Sie strenge Kriterien festlegen, die auf die Ausgabe angewendet werden können, um sie zu kategorisieren.

Die Ergebnisse des Überprüfungsprozesses sollten dokumentiert und mit den Projektbeteiligten geteilt werden.

Manuelle und automatische Tests

In den meisten Szenarios sollten Sie zunächst einige Eingaben manuell testen und auswerten, um sicherzustellen, dass die Testergebnisse konsistent sind und Ihre Bewertungskriterien ausreichend klar definiert sind. Entwickeln Sie dann eine Lösung, um Tests und die Bewertung potenziell negativer Folgen für eine größere Anzahl von Testfällen zu automatisieren. Eine automatisierte Lösung kann die Verwendung eines Klassifizierungsmodells umfassen, um die Ausgabe automatisch auszuwerten.

Auch nach der Implementierung eines automatisierten Ansatzes zum Testen von Eingaben und Bewerten potenziell negativer Folgen sollten Sie in regelmäßigen Abständen manuelle Tests durchführen, um neue Szenarios zu überprüfen und sicherzustellen, dass die automatisierte Testlösung wie erwartet funktioniert.