Auswerten Ihrer generativen KI-Apps mit Azure KI Studio
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
Um die Leistung Ihrer generativen KI-Anwendung bei Anwendung auf einen umfangreichen Datensatz gründlich zu bewerten, können Sie einen Auswertungsprozess einleiten. Während dieser Auswertung wird Ihre Anwendung mit dem angegebenen Dataset getestet, und die Leistung wird quantitativ mit mathematischen basierten Metriken und KI-unterstützten Metriken gemessen. Dieser Auswertungslauf bietet Ihnen umfassende Einblicke in die Funktionen und Einschränkungen der Anwendung.
Um diese Auswertung durchzuführen, können Sie die Auswertungsfunktionalität in Azure KI Studio nutzen, eine umfassende Plattform, die Tools und Features zum Bewerten der Leistung und Sicherheit für Ihr generatives KI-Modell bietet. In KI Studio können Sie detaillierte Auswertungsmetriken protokollieren, anzeigen und analysieren.
In diesem Artikel erfahren Sie, wie Sie eine Auswertungsausführung in einem Test-Dataset oder einem Flow mit integrierten Auswertungsmetriken auf der Azure KI Studio-Benutzeroberfläche erstellen. Für eine größere Flexibilität können Sie einen benutzerdefinierten Auswertungsflow einrichten und das benutzerdefinierte Auswertungsfeature verwenden. Wenn Ihr Ziel darin besteht, einen Batchlauf ohne Auswertung durchzuführen, können Sie auch das benutzerdefinierte Auswertungsfeature nutzen.
Voraussetzungen
Um eine Auswertung mit KI-unterstützten Metriken auszuführen, müssen Sie Folgendes bereithalten:
- Ein Test-Dataset in einem der folgenden Formate:
csv
oderjsonl
. - Eine Azure OpenAI-Verbindung.
- Eine Bereitstellung eines dieser Modelle: GPT 3.5-Modelle, GPT 4-Modelle oder Davinci-Modelle.
Erstellen einer Auswertung mit integrierten Auswertungsmetriken
Mit einem Auswertungslauf können Sie Metrikausgaben für jede Datenzeile in Ihrem Testdatensatz generieren. Sie können eine oder mehrere Auswertungsmetriken auswählen, um die Ausgabe aus verschiedenen Aspekten zu bewerten. Sie können einen Auswertungslauf über die Auswertungs- und Prompt flow-Seiten in KI Studio erstellen. Anschließend wird ein Auswertungserstellungs-Assistent angezeigt, der Sie durch den Prozess der Einrichtung eines Auswertungslaufs führt.
Von der Seite Auswerten
Wählen Sie im einklappbaren linken Menü Auswertung>+ Neue Auswertung aus.
Von der Flowseite
Wählen Sie im einklappbaren linken Menü Prompt flow>Auswerten>Integrierte Auswertung aus.
Grundlegende Informationen
Wenn Sie eine Auswertung von der Seite „Auswerten” starten, müssen Sie zuerst entscheiden, was das Auswertungsziel ist. Durch die Angabe des geeigneten Auswertungsziels können wir die Auswertung auf die spezifische Art Ihrer Anwendung anpassen und dabei genaue und relevante Metriken sicherstellen. Derzeit unterstützen wir zwei Arten von Auswertungszielen:
Dataset: Sie haben bereits über das Modell generierte Ausgaben in einem Test-Dataset. Prompt Flow: Sie haben einen Flow erstellt und möchten die Ausgabe aus dem Flow auswerten.
Wenn Sie den Assistenten für die Auswertungserstellung eingeben, können Sie einen optionalen Namen für die Auswertungsausführung eingeben und das Szenario auswählen, das am besten den Zielen Ihrer Anwendung entspricht. Wir bieten derzeit Unterstützung für die folgenden Szenarien:
- Fragen und Antworten mit Kontext: Dieses Szenario wurde für Anwendungen entwickelt, die das Beantworten von Benutzerabfragen und das Bereitstellen von Antworten mit Kontextinformationen umfassen.
- Fragen und Antworten ohne Kontext: Dieses Szenario wurde für Anwendungen entwickelt, die das Beantworten von Benutzerabfragen und das Bereitstellen von Antworten ohne Kontext umfassen.
Sie können den Hilfebereich verwenden, um die häufig gestellten Fragen zu überprüfen und sich durch den Assistenten führen zu lassen.
Wenn Sie einen Prompt Flow auswerten, können Sie den zu bewertenden Flow auswählen. Wenn Sie die Auswertung auf der Seite „Flow” initiieren, wählen wir automatisch Ihren Auswertungsflow aus. Wenn Sie einen anderen Flow auswerten möchten, können Sie einen anderen auswählen. Es ist wichtig zu beachten, dass innerhalb eines Flows möglicherweise mehrere Knoten vorhanden sind, von denen jeder über einen eigenen Satz von Varianten verfügen könnte. In solchen Fällen müssen Sie den Knoten und die Varianten angeben, die Sie während des Auswertungsprozesses bewerten möchten.
Testdaten konfigurieren
Sie können aus bereits vorhandenen Datasets auswählen oder ein neues Dataset hochladen, das ausgewertet werden soll. Das Test-Dataset muss über die vom Modell generierten Ausgaben für die Auswertung verfügen, wenn im vorherigen Schritt kein Flow ausgewählt wurde.
Wählen Sie ein vorhandenes Dataset aus: Sie können das Test-Dataset aus Ihrer etablierten Dataset-Sammlung auswählen.
Hinzufügen eines neuen Datasets: Sie können Dateien aus Ihrem lokalen Speicher hochladen. Es werden nur die Dateiformate
.csv
und.jsonl
unterstützt.Datenzuordnungen für Flows: Wenn Sie einen zu bewertenden Flow auswählen, stellen Sie sicher, dass Ihre Datenspalten so konfiguriert sind, dass sie mit den erforderlichen Eingaben für den Flow zum Ausführen einer Batchausführung übereinstimmen und die Ausgabe für die Bewertung generieren. Die Auswertung erfolgt dann mithilfe der Ausgabe des Flows. Konfigurieren Sie anschließend im nächsten Schritt die Datenzuordnung für Auswertungseingaben.
Metriken auswählen
Wir unterstützen zwei von Microsoft kuratierte Arten von Metriken, um eine umfassende Bewertung Ihrer Anwendung zu erleichtern:
- Leistungs- und Qualitätsmetriken: Diese Metriken bewerten die Gesamtqualität und Kohärenz des generierten Inhalts.
- Risiko- und Sicherheitsmetriken: Diese Metriken konzentrieren sich auf die Identifizierung potenzieller Inhaltrisiken und die Gewährleistung der Sicherheit der generierten Inhalte.
In der Tabelle finden Sie die vollständige Liste der Metriken, die für jedes Szenario unterstützt werden. Ausführlichere Informationen zu den einzelnen Metrikdefinitionen und deren Berechnung finden Sie unterAuswertungs- und Überwachungsmetriken.
Szenario | Leistungs- und Qualitätsmetriken | Risiko- und Sicherheitsmetriken |
---|---|---|
Fragen und Antworten mit Kontext | Groundedness, Relevanz, Kohärenz, Fluss, GPT-Ähnlichkeit, F1-Score | Selbstverletzte Inhalte, Hass und unfaire Inhalte, Gewalttätige Inhalte, sexuelle Inhalte, geschütztes Material, indirekte Angriffe |
Fragen und Antworten ohne Kontext | Kohärenz, Fluss, GPT-Ähnlichkeit, F1-Score | Selbstverletzte Inhalte, Hass und unfaire Inhalte, gewalttätige Inhalte, sexuelle Inhalte, geschütztes Material, indirekte Angriffe |
Wenn Sie KI-unterstützte Metriken für die Auswertung der Leistung und Qualität verwenden, müssen Sie ein GPT-Modell für den Berechnungsprozess angeben. Wählen Sie eine Azure OpenAI-Verbindung und eine Bereitstellung mit GPT-3.5, GPT-4 oder dem Davinci-Modell für unsere Berechnungen aus.
Für Risiko- und Sicherheitsmetriken müssen Sie keine Verbindung und Bereitstellung bereitstellen. Der Back-End-Dienst für Sicherheitsbewertungen von Azure KI Studio stellt ein GPT-4-Modell bereit, das Scores für den Schweregrad des Inhaltsrisikos und Argumente generieren kann, die es Ihnen ermöglichen, Ihre Anwendung auf Inhaltsschäden zu überprüfen.
Sie können den Schwellenwert festlegen, um die Fehlerrate für die Metriken für schädliche Inhalte zu berechnen (selbstverletzende Inhalte, Hass und unfaire Inhalte, gewalttätige Inhalte, sexuelle Inhalte). Die Fehlerrate wird berechnet, indem ein Prozentsatz der Instanzen mit Schweregraden (Sehr niedrig, Niedrig, Mittel, Hoch) über einem Schwellenwert berechnet wird. Standardmäßig legen wir den Schwellenwert auf „Mittel“ fest.
Bei geschützten Materialien und indirekten Angriffen wird die Fehlerrate als Prozentsatz der Instanzen berechnet, in denen die Ausgabe „true“ ist (Fehlerrate = (#trues / #instances) × 100).
Hinweis
KI-unterstützte Risiko- und Sicherheitsmetriken werden vom Back-End-Dienst für Sicherheitsbewertungen von Azure KI Studio gehostet und sind nur in den folgenden Regionen verfügbar: USA, Osten 2, Frankreich, Mitte, Vereinigtes Königreich, Süden, Schweden, Mitte
Datenzuordnung für die Auswertung: Sie müssen angeben, welche Datenspalten in Ihrem Dataset den Eingaben entsprechen, die in der Auswertung erforderlich sind. Verschiedene Auswertungsmetriken erfordern unterschiedliche Arten von Dateneingaben für genaue Berechnungen.
Hinweis
Wenn Sie Daten auswerten, sollte „answer“ der Antwortspalte in Ihrem Dataset ${data$answer}
zugeordnet sein. Wenn Sie einen Flow auswerten, sollte „answer“ aus der Flowausgabe ${run.outputs.answer}
stammen.
Einen Leitfaden zu den spezifischen Datenzuordnungsanforderungen für jede Metrik finden Sie in den Informationen in der Tabelle:
Fragen zur Beantwortung von Metrikanforderungen
Metrik | Frage | Antwort | Kontext | Grundwahrheit |
---|---|---|---|---|
Quellenübereinstimmung | Erforderlich: Str | Erforderlich: Str | Erforderlich: Str | Nicht zutreffend |
Kohärenz | Erforderlich: Str | Erforderlich: Str | – | – |
Geläufigkeit | Erforderlich: Str | Erforderlich: Str | – | – |
Relevance | Erforderlich: Str | Erforderlich: Str | Erforderlich: Str | Nicht zutreffend |
GPT-Ähnlichkeit | Erforderlich: Str | Erforderlich: Str | Nicht zutreffend | Erforderlich: Str |
F1-Bewertung | Erforderlich: Str | Erforderlich: Str | Nicht zutreffend | Erforderlich: Str |
Inhalte mit Bezug auf Selbstverletzung | Erforderlich: Str | Erforderlich: Str | – | – |
Hasserfüllte und unfaire Inhalte | Erforderlich: Str | Erforderlich: Str | – | – |
Gewalttätige Inhalte | Erforderlich: Str | Erforderlich: Str | – | – |
Sexuelle Inhalte | Erforderlich: Str | Erforderlich: Str | – | – |
Geschütztes Material | Erforderlich: Str | Erforderlich: Str | – | – |
Indirekter Angriff | Erforderlich: Str | Erforderlich: Str | – | – |
- Frage: die Frage, die der Benutzer im Frage-Antwort-Paar gestellt hat
- Antwort: die vom Modell generierte Antwort auf die Frage
- Kontext: die Quelle, in Bezug auf die die Antwort erzeugt wird (d. h. die Basisdokumente)
- Grundwahrheit: die Antwort auf die Frage, die vom Benutzer/Menschen als die wahre Antwort generiert wurde
Prüfen und fertigstellen
Nachdem Sie alle erforderlichen Konfigurationen abgeschlossen haben, können Sie alles überprüfen und „Senden“ auswählen, um den Auswertungslauf zu übermitteln.
Erstellen einer Auswertung mit benutzerdefiniertem Auswertungsflow
Sie können eigene Auswertungsmethoden entwickeln:
Auf der Flowseite: Wählen Sie im einklappbaren linken Menü Prompt flow>Auswerten>Benutzerdefinierte Auswertung aus.
Anzeigen und Verwalten der Auswertungen in der Auswertungsbibliothek
Die Auswertungsbibliothek ist ein zentraler Ort, an dem Sie die Details und den Status Ihrer Auswertungen anzeigen können. Sie können von Microsoft kuratierte Auswertungen anzeigen und verwalten.
Tipp
Sie können benutzerdefinierte Auswertungen über das prompt flow SDK verwenden. Weitere Informationen finden Sie unter Bewerten mit dem prompt flow-SDK.
Die Auswertungsbibliothek ermöglicht auch die Versionsverwaltung. Sie können unterschiedliche Versionen Ihrer Arbeit vergleichen, bei Bedarf frühere Versionen wiederherstellen und einfacher mit anderen Personen zusammenarbeiten.
Um die Auswertungsbibliothek in KI Studio zu verwenden, wechseln Sie zur Seite Auswertung Ihres Projekts, und wählen Sie die Registerkarte Auswertungsbibliothek aus.
Sie können den Namen der Auswertung auswählen, um weitere Details anzuzeigen. Sie können den Namen, die Beschreibung und Parameter anzeigen und die der Auswertung zugeordneten Dateien überprüfen. Im Anschluss folgen einige Beispiele für von Microsoft kuratierte Ressourcen:
- Für von Microsoft kuratierte Leistungs- und Qualitätsauswertungen können Sie den Prompt für Anmerkungen auf der Detailseite anzeigen. Sie können diese Prompts mit dem Prompt Flow SDK an Ihren eigenen Anwendungsfall anpassen, indem Sie die Parameter oder Kriterien entsprechend Ihren Daten und Zielen ändern. Sie können z. B. Groundedness-Evaluator auswählen und die Prompt-Datei überprüfen, die zeigt, wie die Metrik berechnet wird.
- Für von Microsoft kuratierte Risiko- und Sicherheitsauswertungen können Sie die Definition der Metriken anzeigen. Sie können z. B. Self-Harm-Related-Content-Evaluator auswählen und erfahren, was dies bedeutet und wie Microsoft die verschiedenen Schweregrade für diese Sicherheitsmetrik bestimmt.
Nächste Schritte
Erfahren Sie mehr darüber, wie Sie Ihre generativen KI-Anwendungen auswerten: