Anzeigen von Auswertungsergebnissen in Azure KI Studio

Artikel
05/21/2024

Wichtig

Einige der in diesem Artikel beschriebenen Features sind möglicherweise nur in der Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Die Auswertungsseite von Azure KI Studio ist ein vielseitiger Hub, mit dem Sie Ihre Ergebnisse nicht nur visualisieren und bewerten können, sondern sie dient auch als Kontrollzentrum für die Optimierung, Problembehandlung und Auswahl des idealen KI-Modells für Ihre Bereitstellungsanforderungen. Sie ist eine zentrale Lösung für datengesteuerte Entscheidungsfindung und Leistungsverbesserung in Ihren KI Studio-Projekten. Sie können nahtlos auf die Ergebnisse aus verschiedenen Quellen zugreifen und diese interpretieren, einschließlich Ihres Flows, der Playground-Schnelltestsitzung, der Auswertungsübermittlungs-UI und des SDK. Diese Flexibilität stellt sicher, dass Sie mit Ihren Ergebnissen auf eine Weise interagieren können, die am besten zu Ihrem Workflow und Ihren Vorlieben passt.

Sobald Sie Ihre Bewertungsergebnisse visualisiert haben, können Sie mit einer gründlichen Untersuchung beginnen. Dazu gehört auch die Möglichkeit, nicht nur einzelne Ergebnisse anzuzeigen, sondern diese Ergebnisse auch über mehrere Auswertungsläufe hinweg zu vergleichen. Auf diese Weise können Sie Trends, Muster und Diskrepanzen identifizieren und wertvolle Einblicke in die Leistung Ihres KI-Systems unter verschiedenen Bedingungen gewinnen.

In diesem Artikel wird Folgendes behandelt:

Zeigen Sie das Auswertungsergebnis und Metriken an.
Vergleichen Sie die Auswertungsergebnisse.
Machen Sie sich mit den integrierten Auswertungsmetriken vertraut.
Verbessern Sie die Leistung.
Zeigen Sie die Auswertungsergebnisse und Metriken an.

Suchen Ihrer Auswertungsergebnisse

Nachdem Sie Ihre Auswertung übermittelt haben, können Sie zur Seite Auswertung wechseln und in der Ausführungsliste nach der übermittelten Auswertungsausführung suchen.

Sie können ihre Auswertungsausführung in der Ausführungsliste überwachen und verwalten. Mit der Flexibilität, die Spalten mit dem Spalteneditor zu ändern und Filter zu implementieren, können Sie Ihre eigene Version der Laufliste anpassen und erstellen. Darüber hinaus können Sie die aggregierten Auswertungsmetriken schnell über die Ausführung hinweg überprüfen, sodass Sie schnelle Vergleiche ziehen können.

Um genauer zu verstehen, wie die Auswertungsmetriken abgeleitet werden, können Sie auf eine umfassende Erklärung zugreifen, indem Sie die Option Weitere Informationen zu Metriken auswählen. Diese detaillierte Ressource bietet wertvolle Einblicke in die Berechnung und Interpretation der Metriken, die im Auswertungsprozess verwendet werden.

Sie können eine bestimmte Ausführung auswählen, die Sie zur Detailseite für die Ausführung führt. Hier können Sie auf umfassende Informationen zugreifen, einschließlich Auswertungsdetails wie Testdataset, Aufgabentyp, Prompt, Temperatur und mehr. Darüber hinaus können Sie die Metriken anzeigen, die den einzelnen Datenbeispielen zugeordnet sind. Die Metrikbewertungsdiagramme stellen eine visuelle Darstellung der Verteilung der Bewertungen für jede Metrik im gesamten Dataset bereit.

In der Metrikdetailtabelle können Sie eine umfassende Untersuchung der einzelnen Datenbeispiele durchführen. Hier können Sie die generierte Ausgabe sowie die zugehörige Bewertungsmetrik überprüfen. Dieser Detaillierungsgrad ermöglicht es Ihnen, datengestützte Entscheidungen zu treffen und spezifische Maßnahmen zur Verbesserung der Leistung Ihres Modells zu ergreifen.

Einige potenzielle Aktionselemente, die auf den Auswertungsmetriken basieren, können folgendes umfassen:

Erkennung von Mustern: Durch die Filterung nach numerischen Werten und Metriken können Sie Proben mit niedrigeren Punktzahlen aufschlüsseln. Untersuchen Sie diese Beispiele, um wiederkehrende Muster oder Probleme in den Antworten Ihres Modells zu identifizieren. Beispielsweise stellen Sie möglicherweise fest, dass niedrige Bewertungen häufig auftreten, wenn das Modell Inhalte zu einem bestimmten Thema generiert.
Modelleinschränkung: Verwenden Sie die Erkenntnisse aus Beispielen mit niedrigerer Bewertung, um die Systemaufforderungsanweisung zu verbessern oder Ihr Modell zu optimieren. Wenn Sie durchgängige Probleme z. B. mit der Kohärenz oder Relevanz feststellen, können Sie auch die Trainingsdaten oder Parameter des Modells entsprechend anpassen.
Spaltenanpassung: Mit dem Spalten-Editor können Sie eine angepasste Ansicht der Tabelle erstellen, die sich auf die Metriken und Daten konzentriert, die für Ihre Bewertungsziele am relevantesten sind. So können Sie Ihre Analyse optimieren und Trends besser erkennen.
Stichwortsuche: Mit dem Suchfeld können Sie nach bestimmten Wörtern oder Ausdrücken in der generierten Ausgabe suchen. Dies kann nützlich sein, um Probleme oder Muster im Zusammenhang mit bestimmten Themen oder Schlüsselwörtern zu erkennen und diese gezielt anzugehen.

Die Detailtabelle der Metriken bietet eine Fülle von Daten, die Sie bei der Verbesserung Ihres Modells unterstützen können, von der Erkennung von Mustern über die Anpassung Ihrer Ansicht für eine effiziente Analyse bis hin zur Verfeinerung Ihres Modells auf der Grundlage der erkannten Probleme.

Wir unterteilen die aggregierten Ansichten oder Ihre Kennzahlen nach Leistung und Qualität sowie Risiko- und Sicherheitskennzahlen. Sie können die Verteilung von Bewertungen über das ausgewertete Dataset hinweg anzeigen und aggregierte Bewertungen für jede Metrik anzeigen.

Für Leistungs- und Qualitätsmetriken aggregieren wir, indem wir einen Mittelwert für alle Bewertungen für jede Metrik berechnen.
Für Risiko- und Sicherheitsmetriken aggregieren wir basierend auf einem Schwellenwert, um eine Fehlerrate für alle Bewertungen für jede Metrik zu berechnen. Die Fehlerrate wird als Prozentsatz der Instanzen in Ihrem Testdatensatz definiert, die einen Schwellenwert für den Schweregrad über die gesamte Datasetgröße überschreiten.

Hier sind einige Beispiele für die Ergebnisse der Metriken für das Szenario zur Beantwortung von Fragen:

Und hier sind einige Beispiele für die Ergebnisse der Metrik für das Unterhaltungsszenario:

Für ein Szenario mit mehreren Unterhaltungen können Sie „Auswertungsergebnisse pro Austausch anzeigen“ auswählen, um die Auswertungsmetriken für jeden Austausch in einer Unterhaltung zu überprüfen.

Für Risiko- und Sicherheitsmetriken stellt die Auswertung eine Schweregradbewertung und eine Begründung für die einzelnen Bewertungen bereit. Hier sind einige Beispiele für die Ergebnisse der Risiko- und Sicherheitsmetriken für das Szenario zur Beantwortung von Fragen:

Auswertungsergebnisse haben möglicherweise unterschiedliche Bedeutungen für unterschiedliche Zielgruppen. Beispielsweise können Sicherheitsbewertungen eine Kennzeichnung als „geringer“ Schweregrad gewalttätiger Inhalte generieren, die möglicherweise nicht damit übereinstimmt, als wie schwerwiegend ein menschlicher Prüfer diesen gewalttätigen Inhalt einstufen könnte. Wir stellen eine Spalte für menschliches Feedback mit Daumen nach oben und Daumen nach unten bereit, wenn Sie Ihre Auswertungsergebnisse überprüfen, um anzuzeigen, welche Instanzen von einem menschlichen Prüfer genehmigt oder als falsch gekennzeichnet wurden.

Zum Verständnis der einzelnen Metriken für Inhaltsrisiken können Sie die jeweiligen Metrikdefinitionen und Schweregrade ganz einfach anzeigen, indem Sie den Metriknamen oberhalb des Diagramms auswählen, um eine detaillierte Erläuterung in einem Popupelement anzuzeigen.

Wenn bei der Ausführung ein Fehler auftritt, können Sie die Auswertungsausführung auch mit dem Protokoll und der Ablaufverfolgung debuggen.

Hier sind einige Beispiele für die Protokolle, die Sie zum Debuggen der Auswertungsausführung verwenden können:

Hier ist ein Beispiel für die Ablaufverfolgungs- und Debuggingansicht:

Wenn Sie einen prompt flow auswerten, können Sie die Schaltfläche Im Flow anzeigen auswählen, um zur Seite des ausgewerteten Flows zu navigieren und eine Aktualisierung Ihres Flows vorzunehmen. Beispielweise können Sie zusätzliche Metapromptanweisung hinzufügen oder einige Parameter ändern und dann die Bewertung erneut durchführen.

Vergleichen der Auswertungsergebnisse

Um einen umfassenden Vergleich zwischen zwei oder mehr Ausführungen zu erleichtern, können Sie die gewünschten Ausführungen auswählen und den Prozess initiieren, indem Sie die Schaltfläche Vergleichen oder für eine allgemeine detaillierte Dashboardansicht die Schaltfläche Zur Dashboardansicht wechseln auswählen. Mit diesem Feature können Sie die Leistung und die Ergebnisse mehrerer Läufe analysieren und kontrastieren, was eine fundiertere Entscheidungsfindung und gezieltere Verbesserungen ermöglicht.

In der Dashboardansicht haben Sie Zugriff auf zwei wertvolle Komponenten: das Diagramm zum Vergleich der Metrikverteilung und die Vergleichstabelle. Mit diesen Tools können Sie eine parallele Analyse der ausgewählten Auswertungsläufe durchführen, sodass Sie verschiedene Aspekte der einzelnen Datenbeispiele mühelos und präzise vergleichen können.

In der Vergleichstabelle können Sie Grundwerte für den Vergleich festlegen, indem Sie auf den spezifischen Lauf gehen, den Sie als Referenzpunkt verwenden und als Basisplan festlegen möchten. Darüber hinaus können Sie durch Aktivieren der Umschaltfläche „Delta anzeigen“ die Unterschiede zwischen dem Baseline-Lauf und den anderen Läufen für numerische Werte leicht visualisieren. Darüber hinaus zeigt die Tabelle mit aktivierter Umschaltfläche „Nur Unterschied anzeigen“ nur die Zeilen an, die sich zwischen den ausgewählten Läufen unterscheiden, wobei die Identifizierung unterschiedlicher Variationen unterstützt wird.

Mithilfe dieser Vergleichsfeatures können Sie eine fundierte Entscheidung treffen, um die beste Version auszuwählen:

Baseline-Vergleich: Durch die Festlegung eines Basislaufs können Sie einen Referenzpunkt festlegen, mit dem Sie die anderen Läufe vergleichen können. Auf diese Weise können Sie sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
Bewertung numerischer Werte: Die Aktivierung der Option „Delta anzeigen“ hilft Ihnen, das Ausmaß der Unterschiede zwischen der Baseline und den anderen Läufen zu verstehen. Dies ist nützlich, um zu bewerten, wie verschiedene Ausführungen in Bezug auf bestimmte Auswertungsmetriken ausgeführt werden.
Isolierung von Unterschieden: Die Funktion „Nur Unterschiede anzeigen“ optimiert Ihre Analyse, indem sie nur die Bereiche hervorhebt, in denen es Diskrepanzen zwischen den Läufen gibt. Dies kann hilfreich sein, um zu bestimmen, wo Verbesserungen oder Anpassungen erforderlich sind.

Durch effektive Verwendung dieser Vergleichstools können Sie ermitteln, welche Version Ihres Modells oder Systems in Bezug auf Ihre definierten Kriterien und Metriken am besten geeignet ist, um letztendlich die optimale Option für Ihre Anwendung auszuwählen.

Messen von Jailbreak-Sicherheitsrisiken

Die Bewertung von Jailbreak ist eine vergleichende Messung, keine KI-unterstützte Metrik. Führen Sie Auswertungen auf zwei unterschiedlichen, „Red-Teamed“-Datasets aus: ein feindseliges Test-Baseline-Dataset im Vergleich zum gleichen feindseligen Test-Dataset mit Jailbreak-Einschleusungen im ersten Schritt. Sie können den Adversarydatensimulator verwenden, um das Dataset mit oder ohne Jailbreakinjektionen zu generieren.

Um zu verstehen, ob Ihre Anwendung anfällig für Jailbreak ist, können Sie die Baseline angeben und dann dem Umschalter „Jailbreakfehlerraten“ in der Vergleichstabelle aktivieren. Die Jailbreak-Fehlerrate wird als Prozentsatz der Instanzen in Ihrem Testdatensatz definiert, bei denen eine Jailbreak-Einfügung einen höheren Schweregrad für alle Inhaltsrisikometrik im Hinblick auf eine Baseline über die gesamte Datasetgröße generiert hat. Sie können mehrere Auswertungen in Ihrem Vergleichsdashboard auswählen, um die Unterschiede bei den Fehlerraten anzuzeigen.

Tipp

Die Jailbreakfehlerrate wird nur für Datasets derselben Größe berechnet und nur dann, wenn alle Ausführungen Inhaltsrisiko- und Sicherheitsmetriken enthalten.

Grundlegendes zu den integrierten Auswertungsmetriken

Das Verständnis der integrierten Metriken ist entscheidend für die Bewertung der Leistung und Effektivität Ihrer KI-Anwendung. Durch den Einblick in diese wichtigen Messinstrumente sind Sie besser in der Lage, die Ergebnisse zu interpretieren, fundierte Entscheidungen zu treffen und Ihre Anwendung zu optimieren, um optimale Ergebnisse zu erzielen. Weitere Informationen über die Bedeutung der einzelnen Metriken, ihre Berechnung, ihre Rolle bei der Bewertung verschiedener Aspekte Ihres Modells und die Interpretation der Ergebnisse für datengestützte Verbesserungen finden Sie unter Bewertungs- und Überwachungsmetriken.

Nächste Schritte

Erfahren Sie mehr darüber, wie Sie Ihre generativen KI-Anwendungen auswerten:

Erfahren Sie mehr über die Techniken zu Schadensminderung.

Freigeben über