Auswertung von generativen KI-Anwendungen
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
Fortschritte in Sprachmodellen wie GPT-4 über Azure OpenAI Service sind vielversprechend, bringen aber auch Herausforderungen im Zusammenhang mit verantwortungsvoller KI mit sich. Wenn sie nicht sorgfältig entworfen werden, können Systeme, die auf diesen Modellen aufbauen, bestehende gesellschaftliche Vorurteile aufrechterhalten, Fehlinformationen fördern, manipulative Inhalte erstellen oder zu einer Vielzahl anderer negativer Auswirkungen führen. Die Bewältigung dieser Risiken bei gleichzeitiger Maximierung der Benutzervorteile ist mit einem iterativen Ansatz in vier Phasen möglich: Identifizieren, Messen, Entschärfen und Betreiben.
Die Messphase liefert wichtige Informationen für die Ausrichtung der Entwicklung auf Qualität und Sicherheit. Einerseits umfasst diese Phase die Auswertung von Leistung und Qualität. Bei der Risiko- und Sicherheitsbewertung hingegen wird andererseits die Neigung eines KI-Systems zu verschiedenen Risiken (die jeweils unterschiedlich schwerwiegend sein können) bewertet. In beiden Fällen wird dies durch die Festlegung klarer Metriken, die Erstellung von Testsätzen und die Durchführung von iterativen, systematischen Tests erreicht. Diese Messphase liefert den Personen in der Praxis Signale, die gezielte Abhilfemaßnahmen wie Prompt Engineering und die Anwendung von Inhaltsfiltern ermöglichen. Sobald Entschärfungen angewendet wurden, können die Auswertung wiederholt werden, um die Wirksamkeit zu testen.
Azure KI Studio bietet Personen in der Praxis Tools für die manuelle und automatisierte Auswertung, die Ihnen in der Messphase helfen können. Es wird empfohlen, mit einer manuellen Auswertung zu beginnen und dann mit automatisierten Auswertungen fortzufahren. Die manuelle Auswertung, d. h. das manuelle Überprüfen der von der Anwendung generierten Ausgaben, ist nützlich, um den Fortschritt bei einer kleinen Anzahl von vorrangigen Problemen zu verfolgen. Bei der Entschärfung bestimmter Risiken ist es oft am produktivsten, den Fortschritt anhand eines kleinen Datasets manuell zu überprüfen, bis keine Anzeichen für die Risiken mehr zu beobachten sind, bevor Sie zur automatischen Auswertung übergehen. Azure KI Studio unterstützt eine manuelle Auswertung zur stichprobenartigen Überprüfung kleiner Datasets.
Die automatisierte Auswertung ist nützlich für die Messung von Qualität und Sicherheit im großen Stil mit einer größeren Abdeckung, um umfassendere Ergebnisse zu erzielen. Automatisierte Auswertungstools ermöglichen auch laufende Auswertungen, die regelmäßig ausgeführt werden, um Regressionen zu überwachen, während sich das System, die Nutzung und die Entschärfung weiterentwickeln. Wir unterstützen zwei Hauptmethoden für die automatisierte Auswertung generativer KI-Anwendungen: traditionelle Auswertung für maschinelles Lernen und KI-gestützte Auswertung.
Herkömmliche Messungen für maschinelles Lernen
Im Kontext der generativen KI sind herkömmliche Auswertungen für maschinelles Lernen (die herkömmlicher Metriken für maschinelles Lernen produzieren) nützlich, wenn wir die Genauigkeit der generierten Ausgaben im Vergleich zu den erwarteten Antworten quantifizieren möchten. Traditionelle Metriken sind von Vorteil, wenn die Grundwahrheit und die erwarteten Antworten bekannt sind.
- Die Grundwahrheit bezieht sich auf Daten, die wir für wahr halten und daher als Basis für Vergleiche verwenden.
- Die erwarteten Antworten sind die Ausgaben, von denen wir glauben, dass sie auf der Grundlage unserer Basisdaten auftreten sollten. Bei Aufgaben wie der Klassifizierung oder der Beantwortung von Kurzfragen, bei denen es in der Regel nur eine richtige oder erwartete Antwort gibt, können F1-Scores oder ähnliche herkömmliche Metriken verwendet werden, um die Genauigkeit und den Wiedererkennungswert der generierten Ausgaben im Vergleich zu den erwarteten Antworten zu messen.
Traditionelle Metriken sind auch hilfreich, wenn wir verstehen wollen, wie stark sich die generierte Antwort zurück entwickelt, d. h. von der erwarteten Antwort abweicht. Sie liefern ein quantitatives Maß für den Fehler oder die Abweichung und ermöglichen es uns, die Leistung des Systems im Laufe der Zeit zu verfolgen oder die Leistung verschiedener Systeme zu vergleichen. Diese Metriken sind jedoch möglicherweise weniger geeignet für Aufgaben, die Kreativität, Mehrdeutigkeit oder mehrere richtige Lösungen beinhalten, da diese Metriken in der Regel jede Abweichung von einer erwarteten Antwort als Fehler behandeln.
KI-gestützte Auswertungen
Große Sprachmodelle (LLM) wie GPT-4 können verwendet werden, um die Ausgabe von generativen KI-Sprachsystemen zu bewerten. Dies wird erreicht, indem ein LLM angewiesen wird, bestimmte Aspekte der von der KI erzeugten Ausgabe zu annotieren. Sie können z. B. eine GPT-4 mit einer Relevanz-Schweregradskala vorgeben (z. B. Kriterien für die Relevanzanmerkung auf einer Skala von 1-5) und GPT-4 dann auffordern, die Relevanz der Antwort eines KI-Systems auf eine bestimmte Frage zu kommentieren.
KI-gestützte Auswertungen können in Szenarien von Vorteil sein, in denen die Grundwahrheit und die erwarteten Antworten nicht verfügbar sind. In vielen generativen KI-Szenarien, wie z. B. bei der Beantwortung offener Fragen oder beim kreativen Schreiben, gibt es keine einzelnen richtigen Antworten, wodurch es schwierig ist, die Grundwahrheit oder die erwarteten Antworten zu ermitteln, die für herkömmliche Metriken erforderlich sind.
In diesen Fällen können KI-gestützte Auswertungendazu beitragen, wichtige Konzepte wie Qualität und Sicherheit der erzeugten Ausgaben zu messen. Hier bezieht sich Qualität auf Leistungs- und Qualitätsattribute wie Relevanz, Kohärenz, Geläufigkeit und Fundiertheit. Sicherheit bezieht sich auf Risiko- und Sicherheitsattribute wie das Vorhandensein von schädlichen Inhalten (inhaltliche Risiken).
Für jedes dieser Attribute ist eine sorgfältige Konzeptualisierung und Experimentierung erforderlich, um die Anweisungen und die Schweregradskala des LLM zu erstellen. Manchmal beziehen sich diese Attribute auf komplexe soziotechnische Konzepte, die von verschiedenen Personen unterschiedlich gesehen werden können. Daher ist es von entscheidender Bedeutung, dass die Annotationsanweisungen des LLM so erstellt werden, dass sie eine vereinbarte, konkrete Definition des Attributs darstellen. Ebenso wichtig ist es, sicherzustellen, dass der LLM die Anweisungen in einer Weise anwendet, die mit den Annotationen der menschlichen Fachleute übereinstimmt.
Indem Sie ein LLM anweisen, diese Attribute zu annotieren, können Sie eine Metrik dafür erstellen, wie gut eine generative KI-Anwendung funktioniert, selbst wenn es keine einzige richtige Antwort gibt. KI-gestützte Auswertungen bieten eine flexible und nuancierte Möglichkeit, generative KI-Anwendungen zu bewerten, insbesondere bei Aufgaben, die Kreativität, Mehrdeutigkeit oder mehrere richtige Lösungen beinhalten. Die Zuverlässigkeit und Gültigkeit dieser Auswertungen hängt jedoch von der Qualität des LLM und den ihm gegebenen Anweisungen ab.
KI-gestützte Leistungs- und Qualitätsmetriken
Zur Durchführung von KI-gestützten Leistungs- und Qualitätsbewertungen wird ein LLM möglicherweise für zwei separate Funktionen eingesetzt. Zunächst muss ein Testdataset erstellt werden. Dieses kann manuell erstellt werden, indem Sie Prompts auswählen und die Antworten Ihres KI-Systems erfassen, oder es kann synthetisch erstellt werden, indem Sie die Interaktionen zwischen Ihrem KI-System und einem LLM simulieren (im folgenden Diagramm als KI-gestützter Datasetgenerator bezeichnet). Anschließend wird ein LLM verwendet, um die Ausgaben Ihres KI-Systems im Testdataset zu annotieren. Schließlich werden Anmerkungen zu Leistungs- und Qualitätsmetriken aggregiert und für die Anzeige und Analyse beim KI Studio-Projekt protokolliert.
Hinweis
Derzeit werden GPT-4 und GPT-3 als Modelle für KI-gestützte Auswertungen unterstützt. Damit Sie diese Modelle für Auswertungen nutzen können, müssen Sie gültige Verbindungen herstellen. Beachten Sie, dass wir die Verwendung von GPT-4 nachdrücklich empfehlen, da es das kontextuelle Verständnis und die Befolgung der Anweisungen erheblich verbessert.
KI-gestützte Risiko- und Sicherheitsmetriken
Eine Anwendung von KI-gestützten Qualitäts- und Leistungsbewertungen ist die Erstellung von KI-unterstützten Risiko- und Sicherheitsmetriken. Um KI-gestützte Risiko- und Sicherheitsmetriken zu erstellen, stellen Azure KI Studio-Sicherheitsbewertungen ein Azure OpenAI GPT-4-Modell bereit, das in einem Back-End-Dienst gehostet wird, und koordinieren dann jeden der beiden LLM-abhängigen Schritte:
Simulieren von gegnerischen Interaktionen mit Ihrem generativen KI-System:
Generieren Sie ein qualitativ hochwertiges Testdataset mit Eingaben und Antworten, indem Sie Interaktionen mit einzelnen oder mehreren Windungen simulieren, die von Prompts, die gezielt schädliche Reaktionen hervorrufen, geleitet werden.
Annotieren des Testdatasets hinsichtlich Inhalts- oder Sicherheitsrisiken:
Annotieren Sie jede Interaktion aus dem Testdataset mit einem Schweregrad und einer vom Schweregrad abgeleiteten Begründung, die von einer Schweregradskala abgeleitet sind, die für jede Art von Inhalt und Sicherheitsrisiko definiert ist.
Weil die bereitgestellten GPT-4-Modelle als Generatoren von gegensätzlichen Dataset oder Anmerkungen fungieren, werden ihre Sicherheitsfilter deaktiviert, und die Modelle werden in einem Back-End-Dienst gehostet. Die für diese LLMs verwendeten Prompts und die Datasets mit gezielten gegnerischen Prompts werden ebenfalls im Dienst gehostet. Aufgrund des sensiblen Charakters der Inhalte, die über das LLM generiert und weitergeleitet werden, sind die Modelle und Datenbestände für Kunden und Kundinnen von Azure KI Studio nicht direkt zugänglich.
Die Datasets für zielgerichtete gegnerische Prompts wurden von Forschenden von Microsoft, Fachkräften in angewandten Wissenschaften, Linguisten und Linguistinnen sowie Sicherheitsfachleuten entwickelt, um Benutzern und Benutzerinnen den Einstieg in die Bewertung von Inhalten und Sicherheitsrisiken in generativen KI-Systemen zu erleichtern.
Wenn Sie bereits über ein Testdataset mit Prompts und KI-Systemantworten verfügen (z. B. Datasets aus dem Red Teaming), können Sie dieses Dataset and die Bewertung von Inhaltsrisiken übergeben, wo es kommentiert wird. Sicherheitsbewertungen können dazu beitragen, manuelle Red Teaming-Maßnahmen zu ergänzen und zu beschleunigen, indem Red Teams in die Lage versetzt werden, im großen Stil gegnerische Prompts zu generieren und zu automatisieren. KI-gestützte Auswertungen sollen jedoch weder die menschliche Überprüfung ersetzen noch eine umfassende Abdeckung aller möglichen Risiken bieten.
Auswerten von Jailbreak-Sicherheitsrisiken
Im Gegensatz zu Inhaltsrisiken lässt sich das Jailbreak-Sicherheitsrisiko nicht zuverlässig mit einer direkter Anmerkung durch ein LLM messen. Das Jailbreak-Sicherheitsrisiko kann jedoch anhand eines Vergleichs von zwei parallelen Testdatasets gemessen werden: ein Baseline-Dataset für einen gegnerischen Test und dasselbe gegnerische Testdataset mit Jailbreak-Injektionen in der ersten Runde. Jedes Dataset kann von der KI-gestützten Auswertung des Inhaltsrisikos annotiert werden, wodurch für jedes Dataset eine Fehlerrate für das Inhaltsrisiko ermittelt wird. Anschließend werten Benutzer und Benutzerinnen das Jailbreak-Sicherheitsrisiko aus, indem die Fehlerraten verglichen und Fälle notiert werden, in denen das Jailbreak-Dataset zu mehr oder schwerwiegenderen Fehlern geführt hat. Wenn beispielsweise eine Instanz in diesen parallelen Testdatasets für die Version mit einer Jailbreak-Injektion als schwerwiegender gekennzeichnet wird, würde diese Instanz als Jailbreak-Defekt eingestuft.
Weitere Informationen zu den unterstützten Aufgabentypen und den integrierten Metriken finden Sie im Abschnitt Auswertungs- und Überwachungsmetriken für generative KI.
Auswerten und Überwachen von generativen KI-Anwendungen
Azure KI Studio unterstützt mehrere verschiedene Wege für Entwickler*innen von generativen KI-Anwendungen, um ihre Anwendungen auszuwerten:
Playground: Der erste Pfad ist eine „Playground“-Erfahrung. Hier haben Sie die Möglichkeit, die Daten auszuwählen, die Sie als Grundlage für Ihr Modell verwenden möchten, das Basismodell für die Anwendung zu wählen und Metaprogramm-Anweisungen für das Verhalten des Modells zu geben. Sie können die Anwendung dann manuell testen, indem Sie ein Dataset übergeben und die Antworten der Anwendung beobachten. Sobald die manuelle Prüfung abgeschlossen ist, können Sie den Auswertungsassistenten verwenden, um umfassendere Auswertungen durchzuführen, entweder durch traditionelle Metriken oder KI-gestützte Auswertungen.
Flows: Die Azure KI Studio Prompt Flow-Seite bietet ein dediziertes Entwicklungstool, das auf die Rationalisierung des gesamten Lebenszyklus von KI-Anwendungen auf der Basis von LLMs zugeschnitten ist. Mit diesem Pfad können Sie ausführbare Flows erstellen, die LLMs, Prompts und Python-Tools über einen visualisierten Graphen verbinden. Diese Funktion vereinfacht das Debuggen, die gemeinsame Nutzung und die gemeinsamen Iterationen von Flows. Außerdem können Sie Prompt-Varianten erstellen und deren Leistung durch umfangreiche Tests bewerten.
Neben dem Entwicklungstool „Flows“ haben Sie auch die Möglichkeit, Ihre generativen KI-Anwendungen mit Hilfe eines Code-First-SDKs zu entwickeln. Unabhängig von dem von Ihnen gewählten Entwicklungspfad können Sie Ihre erstellten Flows mit Hilfe des Bewertungsassistenten, der über die Registerkarte „Flows“ zugänglich ist, oder über die SDK/CLI-Erfahrung bewerten. Auf der Registerkarte „Flows“ haben Sie sogar die Möglichkeit, einen benutzerdefinierten Bewertungsassistenten zu verwenden und Ihre eigenen Metriken einzubinden.Direkte Dataset-Auswertung: Wenn Sie ein Dataset mit Interaktionen zwischen Ihrer Anwendung und Endbenutzer*innen gesammelt haben, können Sie diese Daten direkt an den Bewertungsassistenten auf der Registerkarte „Auswertung“ übermitteln. Dieser Prozess ermöglicht die Generierung automatischer KI-gestützter Auswertungen, und die Ergebnisse können auf der gleichen Registerkarte visualisiert werden. Dieser Ansatz basiert auf einer datenzentrierten Auswertungsmethode. Alternativ haben Sie die Möglichkeit, Ihr Dataset mit dem SDK/CLI auszuwerten und Auswertungen über Azure KI Studio zu generieren und zu visualisieren.
Nachdem Sie Ihre Anwendungen, Flows oder Daten aus einem dieser Kanäle bewertet haben, können Sie mit der Bereitstellung Ihrer generativen KI-Anwendung fortfahren und ihre Qualität und Sicherheit in einer Produktionsumgebung überwachen, während sie in neue Interaktionen mit Ihren Benutzern und Benutzerinnen eintritt.