Übermitteln einer Batchausführung und Auswertung eines Flows

2025-05-03

Von Bedeutung

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Um zu bewerten, wie gut Ihr Flow mit einem großen Dataset funktioniert, können Sie eine Batchausführung übermitteln und integrierte Bewertungsmethoden in prompt flow verwenden.

In diesem Artikel wird Folgendes behandelt:

Übermitteln einer Batchausführung und verwenden einer integrierte Auswertungsmethode
Anzeigen von Auswertungsergebnis und Metriken
Starten eines neuen Auswertungsdurchlaufs
Batchausführungsverlauf prüfen und Metriken vergleichen
Verstehen der integrierten Auswertungsmetriken
Möglichkeiten zur Verbesserung der Flowleistung

Voraussetzungen

Für eine Batchausführung und die Verwendung einer Auswertungsmethode müssen Sie Folgendes bereithalten:

Ein Testdataset für die Batchausführung. Ihr Dataset sollte in einem der folgenden Formate vorliegen: .csv, .tsv, oder .jsonl. Ihre Daten sollten außerdem Header enthalten, die mit den Eingabenamen Ihres Flows übereinstimmen. Wenn Ihre Floweingaben eine komplexe Struktur wie eine Liste oder ein Wörterbuch enthalten, verwenden Sie das jsonl-Format, um Ihre Daten darzustellen.
Eine verfügbare Computesitzung zum Ausführen der Batchausführung. Eine Computesitzung ist eine cloudbasierte Ressource, die Ihren Flow ausführt und Ausgaben generiert. Weitere Informationen zu Computesitzungen finden Sie unter Computesitzung.

Übermitteln einer Batchausführung und verwenden einer integrierte Auswertungsmethode

Mit einer Batchausführung können Sie Ihren Flow mit einem großen Dataset ausführen und Ausgaben für jede Datenzeile erzeugen. Sie können auch eine Auswertungsmethode auswählen, um die Ausgabe Ihres Flows mit bestimmten Kriterien und Zielen zu vergleichen. Eine Auswertungsmethode ist ein spezieller Flowtyp, die Metriken für Ihre Flowausgabe basierend auf verschiedenen Aspekten berechnet. Ein Auswertungslauf wird ausgeführt, um die Metriken zu berechnen, wenn sie mit der Batchausführung übermittelt werden.

Um eine Batchausführung mit Auswertung zu starten, können Sie auf der Schaltfläche Auswerten die Option benutzerdefinierte Auswertung auswählen. Indem Sie „Benutzerdefinierte Auswertung“ auswählen, können Sie entweder eine Batchausführung mit Auswertungsmethoden übermitteln oder eine Batchausführung ohne Auswertung für Ihren Flow übermitteln.

Zunächst werden Sie aufgefordert, Ihrer Batchausführung einen beschreibenden und erkennbaren Namen zu geben. Sie können auch eine Beschreibung verfassen und Tags (Schlüssel/Wert-Paare) zu Ihrer Batchausführung hinzufügen. Nachdem Sie die Konfiguration abgeschlossen haben, wählen Sie zum Fortfahren Weiter aus.

Als Zweites müssen Sie ein Dataset auswählen oder hochladen, mit dem Sie Ihren Flow testen möchten. Sie müssen auch eine verfügbare Computesitzung für die Ausführung dieser Batchausführung auswählen.

Prompt flow unterstützt auch die Zuordnung Ihrer Floweingabe zu einer bestimmten Datenspalte in Ihrem Dataset. Das bedeutet, dass Sie eine Spalte einer bestimmten Eingabe zuordnen können. Sie können einer Eingabe eine Spalte zuweisen, indem Sie mit dem Format ${data.XXX} referenzieren. Wenn Sie einer Eingabe einen konstanten Wert zuweisen wollen, können Sie diesen Wert direkt eingeben.

Im nächsten Schritt können Sie dann entscheiden, ob Sie eine Auswertungsmethode verwenden wollen, um die Leistung dieses Flows zu überprüfen. Sie können direkt die Schaltfläche Weiter auswählen, um diesen Schritt zu überspringen, wenn Sie keine Auswertungsmethode anwenden oder keine Metriken berechnen möchten. Wenn Sie aber jetzt eine Batchausführung mit Auswertung durchführen möchten, können Sie eine oder mehrere Auswertungsmethoden auswählen. Die Auswertung beginnt nach Abschluss der Batchausführung. Sie können auch eine weitere Auswertungsrunde starten, nachdem die Batchausführung abgeschlossen wurde. Weitere Informationen zum Starten einer neuen Auswertungsrunde finden Sie unter Starten einer neuen Auswertungsrunde.

Im nächsten Schritt im Abschnitt Eingabemapping müssen Sie die Quellen der Eingabedaten angeben, die für die Auswertungsmethode benötigt werden. Die Spalte „Grundwahrheit“ kann beispielsweise aus einem Dataset stammen. Standardmäßig verwendet die Auswertung dasselbe Dataset wie das Testdataset, das für die getestete Ausführung bereitgestellt wurde. Wenn sich die entsprechenden Bezeichnungen oder die Werte der Zielgrundwahrheit jedoch in einem anderen Dataset befinden, können Sie problemlos zu diesem wechseln.

Wenn die Datenquelle aus Ihrer Ausführungsausgabe stammt, wird die Quelle als ${run.output.[OutputName]} angegeben
Wenn die Datenquelle aus Ihrem Testdatensatz stammt, wird die Quelle als ${data.[ColumnName]} angegeben

Hinweis

Wenn Ihre Auswertung keine Daten aus dem Dataset erfordert, müssen Sie im Abschnitt „Eingabezuordnung“ nicht auf Spalten des Datasets verweisen. Dies zeigt, dass die Auswahl des Datasets eine optionale Konfiguration ist. Die Auswahl eines Datasets wirkt sich nicht auf das Ergebnis der Auswertung aus.

Wenn eine Auswertungsmethode Große Sprachmodelle (Large Language Models, LLMs) verwendet, um die Leistung der Flowantwort zu messen, müssen Sie auch Verbindungen für die LLM-Knoten in den Auswertungsmethoden festlegen.

Anschließend können Sie Weiter auswählen, um Ihre Einstellungen zu überprüfen und Übermitteln auszuwählen, um die Batchausführung mit der Auswertung zu starten.

Anzeigen von Auswertungsergebnis und Metriken

Nach der Übermittlung finden Sie die übermittelte Batchausführung auf der Registerkarte „Ausführungsliste“ auf der Seite „prompt flow“. Wählen Sie eine Ausführung aus, um zur Ergebnisseite der Ausführung zu navigieren.

Auf der Seite mit den Ausführungsdetails können Sie Details wählen, um die Details dieser Batchausführung zu prüfen.

Output

Grundlegendes Ergebnis und Ablaufverfolgung

Dadurch gelangen Sie zuerst zur Registerkarte Ausgabe, um die Ein- und Ausgänge per Zeile anzuzeigen. Auf der Registerkarte „Ausgabe“ wird eine Tabellenliste mit Ergebnissen angezeigt, einschließlich Zeilen-ID, Eingabe , Ausgabe, Status, Systemmetriken und Erstellungszeit.

Wenn Sie für jede Zeile Ablaufverfolgung ansehen auswählen, können Sie diesen bestimmten Testfall auf seiner detaillierten Ablaufverfolgungsseite beobachten und debuggen.

Anfügen des Auswertungsergebnisses und der Ablaufverfolgung

Wenn Sie die Ausgabe der Auswertung anhängen auswählen, können Sie verwandte Auswertungsläufe auswählen, und am Ende der Tabelle werden angefügte Spalten mit dem Auswertungsergebnis für jede Datenzeile angezeigt. Mehrere Auswertungsausgaben können zum Vergleich angefügt werden.

Die neuesten Auswertungsmetriken werden im linken Übersichtsbereich angezeigt.

Grundlegende Übersicht

Auf der rechten Seite bietet die Übersicht allgemeine Informationen zur Ausführung, z. B. die Anzahl der pro Datenpunktausführung, Gesamttoken und Dauer der Ausführung.

Die neueste Auswertungsausführung aggregierte Metriken werden hier standardmäßig angezeigt, Sie können „Auswertungslauf anzeigen“ auswählen, um zu springen, um den Auswertungslauf selbst anzuzeigen.

Die Übersicht kann hier erweitert und reduziert werden, und Sie können Vollständige Informationen anzeigen auswählen, um zur Registerkarte Übersicht neben der Registerkarte „Ausgabe“ zu gelangen, wo detailliertere Informationen zu diesem Lauf angezeigt werden.

Starten eines neuen Auswertungsdurchlaufs

Wenn Sie bereits eine Batchausführung abgeschlossen haben, können Sie eine weitere Auswertungsrunde starten, um eine neue Auswertungsausführung zur Berechnung von Metriken für die Ausgaben einzureichen, ohne Ihren Flow erneut auszuführen. Dies ist hilfreich und kann Kosten für die erneute Ausführung Ihres Flows in folgenden Fällen sparen:

Sie haben bei der Übermittlung der Batchausführung keine Auswertungsmethode zur Berechnung der Metriken ausgewählt und wollen dies nun nachholen.
Sie haben bereits eine Auswertungsmethode verwendet, um eine Metrik zu berechnen. Sie können einen weiteren Auswertungsdurchlauf starten, um eine andere Metrik zu berechnen.
Bei der Auswertungsausführung ist ein Fehler aufgetreten, aber der Flow hat erfolgreich Ausgaben generiert. Sie können Ihre Auswertung erneut übermitteln.

Sie können zur Registerkarte Ausführungen von prompt flow wechseln. Wechseln Sie dann zur Detailseite für die Batchausführung, und wählen Sie Auswerten aus, um eine weitere Auswertungsrunde zu starten.

Nachdem Sie die Konfiguration eingerichtet haben, können Sie für diesen neuen Auswertungsdurchlauf Übermitteln auswählen. Nach dem Absenden sehen Sie einen neuen Datensatz in der Liste der Prompt Flow-Läufe. Nach Abschluss des Auswertungslaufs können Sie das Ergebnis der Auswertung auf der Registerkarte "Ausgaben" der Detailtafel des Batchlaufs überprüfen. Sie müssen die neue Auswertungsausführung auswählen, um deren Ergebnis anzuzeigen.

Um mehr über die von den integrierten Bewertungsmethoden berechneten Metriken zu erfahren, gehen Sie zu Verstehen der integrierten Bewertungsmethoden.

Überblick

Auf der Registerkarte "Übersicht" werden umfassende Informationen zur Ausführung angezeigt, einschließlich Ausführungseigenschaften, Eingabedatensatz, Ausgabedatensatz, Tags und Beschreibung.

Logdateien

Wenn Sie die Registerkarte "Protokolle" auswählen, können Sie die Ausführungsprotokolle anzeigen, die für das detaillierte Debuggen von Ausführungsfehlern nützlich sein können. Sie können die Protokolldateien auf Ihren lokalen Computer herunterladen.

Schnappschuss

Wenn Sie die Registerkarte "Momentaufnahme" auswählen, wird die Momentaufnahme ausgeführt. Sie können die DAG Ihres Flusses anzeigen. Darüber hinaus haben Sie die Möglichkeit, ihn zu klonen, um einen neuen Fluss zu erstellen. Sie können sie auch als Onlineendpunkt bereitstellen.

Batchausführungsverlauf prüfen und Metriken vergleichen

In einigen Szenarien ändern Sie Ihren Flow, um die Leistung zu verbessern. Sie können mehrere Batchausführungen übermitteln, um die Leistung Ihres Flows in verschiedenen Versionen zu vergleichen. Sie können auch die Metriken vergleichen, die von verschiedenen Auswertungsmethoden berechnet werden, um zu ermitteln, welche Metrik für Ihren Flow am besten geeignet ist.

Um den Verlauf der Batchausführung Ihres Flows zu überprüfen, können Sie die Schaltfläche Batchausführung anzeigen Ihrer Flowseite wählen. Sie sehen eine Liste der Batchausführungen, die Sie für diesen Flow übermittelt haben.

Sie können jede Batchausführung auswählen, um die Details zu überprüfen. Sie können auch mehrere Batchausführungen auswählen und die Option Ausgaben visualisieren wählen, um die Metriken und Ausgaben dieser Batchausführungen zu vergleichen.

Im Bereich „Ausgaben visualisieren“ zeigt die Tabelle Ausführungen und Metriken die Informationen der ausgewählten Ausführungen mit Hervorhebung an. Andere Ausführungen, welche die Ausgaben der ausgewählten Ausführungen als Eingabe verwenden, sind ebenfalls aufgeführt.

In der Tabelle „Ausgaben“ können Sie die ausgewählten Batchausführungen für jede Zeile der Stichprobe vergleichen. Wenn Sie in der Tabelle „Ausführungen und Metriken“ das Augensymbol für die Visualisierung auswählen, werden die Ausgaben dieser Ausführung an die entsprechende Basisausführung angefügt.

Verstehen der integrierten Auswertungsmetriken

In prompt flow bieten wir mehrere integrierte Bewertungsmethoden an, mit denen Sie die Leistung Ihrer Flow-Ausgabe messen können. Jede Auswertungsmethode berechnet andere Metriken. Eine Liste der integrierten Auswertungsmethoden und deren Beschreibungen finden Sie in der folgenden Tabelle.

Auswertungsmethode	Metriken	BESCHREIBUNG	Verbindung erforderlich	Erforderliche Eingabe	Bewertungswert
Auswertung der Klassifizierungsgenauigkeit	Genauigkeit	Misst die Leistung eines Klassifizierungssystems durch einen Vergleich seiner Ausgaben mit der Grundwahrheit.	Nein	Vorhersage, Grundwahrheit	im Bereich [0, 1]
Paarweise Auswertung der QnA-Relevanzscores	Score, besser/schlechter	Bewertet die Qualität der Antworten, die von einem Fragen und Antworten-System generiert werden. Dies umfasst das Zuweisen von Relevanzscores zu jeder Antwort basierend darauf, wie gut sie der Benutzerfrage entspricht, den Vergleich unterschiedlicher Antworten mit einer Baselineantwort und das Aggregieren der Ergebnisse, um Metriken wie durchschnittliche Vergleichsraten und Relevanzscores zu generieren.	Ja	Frage, Antwort (keine Grundwahrheit, kein Kontext)	Score: 0–100, besser/schlechter: 1/0
Auswertung der Übereinstimmung mit der QnA-Quelle	Verankerung	Misst, wie sehr die vorhergesagten Antworten des Modells mit der Eingabequelle übereinstimmen. Selbst wenn die Antworten des LLM wahr sind, sind sie ohne eine Vergleichsmöglichkeit mit der Quelle nicht übereinstimmend.	Ja	Frage, Antwort, Kontext (keine Grundwahrheit)	1–5, wobei 1 die schlechteste und 5 die beste ist.
Fragen und Antworten zur GPT-Ähnlichkeitsbewertung	GPT-Ähnlichkeit	Misst die Ähnlichkeit zwischen den vom Benutzer bereitgestellten Grundwahrheitsantworten und der vom Modell mit dem GPT-Modell vorhergesagten Antwort.	Ja	Frage, Antwort, Grundwahrheit (Kontext nicht erforderlich)	im Bereich [0, 1]
Auswertung der QnA-Relevanz	Relevanz	Misst, wie relevant die vorhergesagten Antworten des Modells in Bezug auf die gestellten Fragen sind.	Ja	Frage, Antwort, Kontext (keine Grundwahrheit)	1–5, wobei 1 die schlechteste und 5 die beste ist.
Auswertung der QnA-Kohärenz	Kohärenz	Misst die Qualität aller Sätze in der vorhergesagten Antwort eines Modells und wie sie auf natürliche Weise zusammenpassen.	Ja	Frage, Antwort (keine Grundwahrheit, kein Kontext)	1–5, wobei 1 die schlechteste und 5 die beste ist.
Auswertung der QnA-Geläufigkeit	Geläufigkeit	Misst, wie grammatikalisch und linguistisch korrekt die vorhergesagte Antwort des Modells ist.	Ja	Frage, Antwort (keine Grundwahrheit, kein Kontext)	1–5, wobei 1 die schlechteste und 5 die beste ist.
Auswertung der QnA-f1-Scores	F1-Bewertung	Misst das Verhältnis der Anzahl der übereinstimmenden Wörter zwischen der Modellvorhersage und der Grundwahrheit.	Nein	Frage, Antwort, Grundwahrheit (Kontext nicht erforderlich)	im Bereich [0, 1]
Auswertung der QnA-Ada-Ähnlichkeit	Ada-Ähnlichkeit	Berechnet Einbettungen auf Satzebene (Dokumentebene) mithilfe der Ada-Einbettungs-API für Grundwahrheit und Vorhersage. Anschließend wird die Ähnlichkeit zwischen ihnen berechnet (als Gleitkommazahl).	Ja	Frage, Antwort, Grundwahrheit (Kontext nicht erforderlich)	im Bereich [0, 1]

Möglichkeiten zur Verbesserung der Flowleistung

Nachdem Sie die integrierten Methoden der Auswertung überprüft haben, können Sie versuchen, die Flowleistung wie folgt zu verbessern:

Überprüfen Sie die Ausgabedaten, um potenzielle Fehler Ihres Flows zu debuggen.
Ändern Sie Ihren Flow, um die Leistung zu verbessern. Dies beinhaltet, ist aber nicht beschränkt auf:
- Ändern des Prompts
- Ändern der Systemnachricht
- Ändern von Parametern des Flows
- Ändern der Flowlogik

Weitere Informationen zum Erstellen einer Eingabeaufforderung, die Ihr Ziel erreichen kann, finden Sie unter Einführung in das Prompt-Engineering, Prompt-Engineering-Techniken und Systemnachrichtenframework und Vorlagenempfehlungen für große Sprachmodelle (Large Language Models, LLMs).

In diesem Dokument haben Sie gelernt, wie Sie eine Batchausführung übermitteln und eine integrierte Auswertungsmethode verwenden, um die Qualität Ihrer Flowausgabe zu messen. Außerdem haben Sie gelernt, wie Sie das Auswertungsergebnis und die Metriken anzeigen und einen neuen Auswertungsdurchlauf mit einer anderen Methode oder einer Teilmenge von Varianten starten. Wir hoffen, dass dieses Dokument Ihnen dabei hilft, Ihre Flowleistung zu verbessern und Ihre Ziele mit prompt flow zu erreichen.