Minimieren potenzieller negativer Folgen

Abgeschlossen

Nachdem Sie eine Baseline und eine Methode zum Messen der negativen Folgen einer Lösung ermittelt haben, können Sie Maßnahmen ergreifen, um die potenziellen negativen Folgen zu mindern, und gegebenenfalls das geänderte System erneut testen und die Intensität der Folgen mit der Baseline vergleichen.

Die Minderung potenzieller negativer Folgen einer generativen KI-Lösung umfasst einen mehrschichtigen Ansatz, bei dem Maßnahmen zur Eindämmung auf jede der vier Ebenen angewendet werden können, wie hier dargestellt:

Diagram showing the model, safety system, application, and positioning layers of a generative AI solution.

  1. Modell
  2. Sicherheitssystem
  3. Metaprompt und Grounding
  4. Benutzerfreundlichkeit

1: Die Modellebene

Die Modellebene besteht aus dem bzw. den generativen KI-Modell(en), die das Herzstück Ihrer Lösung bilden. Ihre Lösung kann beispielsweise auf Grundlage eines Modells wie GPT-4 erstellt werden.

Sie können auf der Modellebene unter anderem folgende Abhilfemaßnahmen ergreifen:

  • Wählen Sie ein Modell aus, das für die beabsichtigte Verwendung der Lösung geeignet ist. Während GPT-4 beispielsweise ein leistungsfähiges und vielseitiges Modell sein kann, kann in einer Lösung, die nur zum Klassifizieren kleiner, spezifischer Texteingaben verwendet wird, ein einfacheres Modell die erforderliche Funktionalität mit geringerem Risiko der Generierung negativer Inhalte bieten.
  • Optimieren Sie ein grundlegendes Modell mit Ihren eigenen Trainingsdaten, sodass die generierten Antworten mit größerer Wahrscheinlichkeit relevant und passend für Ihr Lösungsszenario sind.

2: Die Sicherheitssystemebene

Die Sicherheitssystemebene umfasst Konfigurationen auf Plattformebene und Funktionen, die zur Minderung negativer Folgen beitragen. Azure OpenAI Service bietet beispielsweise Unterstützung für Inhaltsfilter, die Kriterien anwenden, um Äußerungen und Antworten auf der Grundlage der Klassifizierung von Inhalten in vier Schweregrade (sicher, niedrig, mittel und hoch) für vier Kategorien negativer Inhalte (Hass, Sexuelle Inhalte, Gewalt und Selbstverletzung) zu unterdrücken.

Weitere Abhilfemaßnahmen auf der Sicherheitssystemebene können Algorithmen zur Missbrauchserkennung umfassen, um festzustellen, ob die Lösung systematisch missbraucht wird (z. B. durch ein hohes Aufkommen automatisierter Anforderungen durch einen Bot), sowie Warnungsbenachrichtigungen, die eine schnelle Reaktion auf potenziellen Systemmissbrauch oder schädliches Verhalten ermöglichen.

3: Die Ebene Metaprompt und Grounding

Die Ebene „Metaprompt und Grounding“ konzentriert sich auf die Konstruktion von Eingabeaufforderungen, die an das Modell übermittelt werden. Zu den Techniken zur Schadensminderung, die Sie auf dieser Ebene anwenden können, gehören:

  • Angeben von Metaprompts oder Systemeingaben, die Verhaltensparameter für das Modell definieren
  • Anwenden von Prompt Engineering zum Hinzufügen von Grounding-Daten zu Eingabeprompts, um die Wahrscheinlichkeit einer relevanten, nicht negativen Ausgabe zu maximieren.
  • Verwenden eines RAG-Ansatzes (Retrieval Augmented Generation) zum Abrufen kontextbezogener Daten aus vertrauenswürdigen Datenquellen und zum Einschließen dieser Daten in Eingabeaufforderungen.

4: Die Ebene Benutzererfahrung

Die Ebene „Benutzererfahrung“ umfasst die Softwareanwendung, über die Benutzer mit dem generativen KI-Modell interagieren, sowie Dokumentationen oder andere Benutzermaterialien, die die Verwendung der Lösung für ihre Benutzer und Projektbeteiligten beschreiben.

Das Entwerfen der Anwendungsbenutzeroberfläche zum Einschränken von Eingaben auf bestimmte Themen oder Typen oder das Anwenden der Eingabe- und Ausgabevalidierung kann das Risiko potenziell schädlicher Antworten verringern.

Die Dokumentation und andere Beschreibungen einer generativen KI-Lösung sollten die Funktionen und Einschränkungen des Systems, die zugrunde liegenden Modelle und alle negativen Folgen, die möglicherweise nicht immer von den von Ihnen ergriffenen Abhilfemaßnahmen abgedeckt werden, in angemessener Weise transparent machen.