Identifizieren potenzieller negativer Folgen

Abgeschlossen

Die erste Phase eines verantwortungsvollen generativen KI-Prozesses besteht darin, die potenziellen negativen Folgen zu identifizieren, die sich auf Ihre geplante Lösung auswirken könnten. In dieser Phase gibt es vier Schritte, wie hier zu sehen ist:

Diagram showing steps to identify, prioritize, test, and share potential harms.

  1. Identifizieren potenzieller negativer Folgen
  2. Priorisieren identifizierter negativer Folgen
  3. Testen und Überprüfen der priorisierten negativen Folgen
  4. Dokumentieren und Teilen der verifizierten negativen Folgen

1: Identifizieren potenzieller negativer Folgen

Die potenziellen negativen Folgen, die für Ihre generative KI-Lösung relevant sind, hängen von mehreren Faktoren ab, einschließlich der spezifischen Dienste und Modelle, die zum Generieren der Ausgabe verwendet werden, sowie von allen Feinabstimmungs- oder Basisdaten, die zum Anpassen der Ausgaben verwendet werden. Einige häufige Arten potenzieller negativer Folgen in einer generativen KI-Lösung sind:

  • Generieren von Inhalten, die anstößig, abwertend oder diskriminierend sind
  • Generieren von Inhalten, die sachliche Ungenauigkeiten enthalten
  • Generieren von Inhalten, die illegale oder unethische Verhaltensweisen oder Praktiken fördern oder unterstützen

Um die bekannten Einschränkungen und das Verhalten der Dienste und Modelle in Ihrer Lösung vollständig zu verstehen, lesen Sie die verfügbare Dokumentation. Azure OpenAI Service enthält beispielsweise einen Transparenzhinweis, mithilfe dessen Sie spezifische Überlegungen in Bezug auf den Dienst und die darin enthaltenen Modelle nachvollziehen können. Darüber hinaus können einzelne Modellentwickler*innen Dokumentationen wie die OpenAI-Systemkarte für das GPT-4-Modell bereitstellen.

Lesen Sie den Leitfaden Microsoft Responsible AI Impact Assessment Guide, und verwenden Sie die zugehörige Vorlage Responsible AI Impact Assessment, um potenzielle negative Folgen zu dokumentieren.

2: Priorisieren der negativen Folgen

Bewerten Sie für jeden potenzielle negative Folge, die Sie identifiziert haben, die Wahrscheinlichkeit ihres Auftretens und die daraus resultierende Auswirkung. Verwenden Sie dann diese Informationen, um die negativen Folgen mit den wahrscheinlichsten und folgenreichsten Auswirkungen zuerst zu priorisieren. Dank dieser Priorisierung können Sie sich darauf konzentrieren, die schädlichsten Risiken in Ihrer Lösung zu finden und zu minimieren.

Bei der Priorisierung muss sowohl der beabsichtigte Einsatz der Lösung als auch das Missbrauchspotenzial berücksichtigt werden; sie kann subjektiv sein. Angenommen, Sie entwickeln einen intelligenten Küchen-Assistenten, der professionelle und Amateurköche und -köchinnen beim Kochen unterstützt. Mögliche negative Folgen können Folgendes umfassen:

  • Die Lösung gibt falsche Kochzeiten an, wodurch die Lebensmittel nicht ausreichend gekocht werden, was Erkrankungen verursachen kann.
  • Bei Aufforderung liefert die Lösung ein Rezept für ein tödliches Gift, das aus alltäglichen Zutaten hergestellt werden kann.

Obwohl keines dieser Ergebnisse wünschenswert ist, können Sie entscheiden, dass das Potenzial der Lösung, ein tödliches Gift zu produzieren, eine größere Auswirkung hat als das Potenzial, dass Lebensmittel nicht ausreichend gekocht werden. In Anbetracht des wichtigsten Nutzungsszenarios der Lösung können Sie jedoch auch davon ausgehen, dass die Häufigkeit, mit der ungenaue Kochzeiten vorgeschlagen werden, wahrscheinlich viel höher ist als die Anzahl der Benutzer*innen, die ausdrücklich nach einem Giftrezept fragen. Die endgültige Festlegung der Prioritäten ist ein Diskussionsgegenstand für das Entwicklungsteam, das auch politische oder juristische Expert*innen zu Rate ziehen kann, um eine ausreichende Priorisierung vorzunehmen.

3: Testen und Überprüfen des Vorhandenseins von negativen Folgen

Nachdem Sie nun über eine priorisierte Liste verfügen, können Sie Ihre Lösung testen, um zu überprüfen, ob die negativen Folgen auftreten, und wenn ja, unter welchen Bedingungen. Ihre Tests können auch das Vorhandensein von zuvor nicht identifizierten negativen Folgen aufdecken, die Sie der Liste hinzufügen können.

Ein gängiger Ansatz zum Testen auf potenzielle negative Folgen oder Sicherheitsrisiken in einer Softwarelösung ist die Verwendung von „Red Team“-Tests, bei denen ein Team von Tester*innen die Lösung absichtlich auf Schwachstellen testet und versucht, Schaden anzurichten. Beispieltests für den zuvor beschriebenen intelligenten Küchen-Assistenten könnten die Anforderung von Giftrezepten oder schnellen Rezepten umfassen, die Zutaten enthalten, die gründlich gekocht werden sollten. Die Erfolge des Red Teams sollten dokumentiert und überprüft werden, um die realistische Wahrscheinlichkeit des Auftretens negativer Folgen bei der Verwendung der Lösung zu ermitteln.

Hinweis

Red Teaming ist eine Strategie, die häufig verwendet wird, um Sicherheitsrisiken oder andere Schwachstellen zu finden, die die Integrität einer Softwarelösung gefährden können. Indem Sie diesen Ansatz erweitern, um negative Folgen von generativer KI zu finden, können Sie einen verantwortungsvollen KI-Prozess implementieren, der auf bestehenden Cybersicherheitspraktiken aufbaut und diese ergänzt.

Weitere Informationen zu Red Teaming für generative KI-Lösungen finden Sie unter Einführung in „Red Teaming“ für große Sprachmodelle (LLMs) in der Dokumentation zu Azure OpenAI Service.

4: Dokumentieren und Teilen von Details zu negativen Folgen

Wenn Sie Beweise für das Vorhandensein potenzieller negativer Folgen der Lösung gesammelt haben, dokumentieren Sie die Details, und teilen Sie sie den Projektbeteiligten mit. Die priorisierte Liste der negativen Folgen sollte dann beibehalten und ergänzt werden, wenn neue negative Folgen erkannt werden.