Auswerten von Unterhaltungen mit mehreren Durchläufen

Echte Benutzer interagieren nicht mit Agents über isolierte Einzelfragenaustausche. Stattdessen beteiligen sie sich an Unterhaltungen, die Folgefragen, inkrementelle Informationsaustausch und mehrstufige Aufgabenausführung umfassen.

Die Mehrdurchlaufevaluierung trägt dazu bei, dass Ihr Agent den Kontext aufrechterhalten, Aufgaben in mehreren Schritten ausführen und während eines realistischen Konversationsflusses angemessen reagieren kann.

Verwendung von Multi-Turn-Auswertungen

Verwenden Sie die Auswertung mit mehreren Durchläufen, wenn Sie Szenarien testen, die eine Kontextaufbewahrung oder mehrere Schritte zum Ausführen einer Aufgabe erfordern.

Szenario	Warum multi-turn erforderlich ist
Schlitzfüllung	Der Agent muss mehrere Informationen sammeln.
Klarstellungsabläufe	Der Agent muss mehrdeutige Benutzereingaben auflösen.
Aufgaben mit mehreren Schritten	Für die Aufgabe sind mehrere Austauschvorgänge erforderlich.
Kontextabhängige Nachverfolgungen	Spätere Fragen hängen von früheren Antworten ab.
Progressive Offenlegung	Informationen werden inkrementell bereitgestellt.

Single-Turn- und Multi-Turn-Auswertung

Beginnen Sie mit Single-Turn-Auswertungen für die Abdeckung, und fügen Sie dann Multi-Turn-Auswertungen hinzu, um realistische Interaktionen zu testen.

Aspekt	Einzelner Durchlauf	Mehrfachdrehen
Tests	Einzelne Frage-Antwort-Paare	Abschließen von Unterhaltungen
Kontext	Jede Eingabeaufforderung ist unabhängig.	Aufeinander aufbauen
Komplexität	Einfacheres Entwerfen und Auswerten	Realistischer, aber komplexer
Fehlerdiagnose	Leichter zu isolierende Probleme	Erfordert eine Turn-by-Turn-Analyse
Anwendungsfall	Testen bestimmter Antworten	Testen des Konversationsflusses

Wichtige Metriken für die Auswertung mit mehreren Durchläufen

Für die Auswertung mit mehreren Durchläufen sind zusätzliche Metriken erforderlich, die über die Genauigkeit des einzelnen Durchlaufs hinausgehen. Diese Metriken bewerten, wie gut der Agent in einer gesamten Unterhaltung abschneidet.

Konversationsvollständigkeit

Die Konversationsvollständigkeit misst, ob der Agent das Ziel des Benutzers am Ende der Interaktion erreicht.

Erfolgsbeispiel

Durchlauf 1

Benutzer: "Ich muss einen Laptop bestellen"
Agent: "Ich kann dabei helfen. Welche Art von Laptop benötigen Sie?"

Durchlauf 2

Benutzer: "MacBook Pro"
Agent: "Welche Bildschirmgröße – 14 Zoll oder 16 Zoll?"

Durchlauf 3

Benutzer: "16 Zoll"
Agent: "Ich habe Ihre Bestellung für ein 16-Zoll-MacBook Pro eingereicht. Bestell-ID: ORD-456. Voraussichtliche Lieferung: 5–7 Werktage."

✅ Das Benutzerziel (Bestellen eines Laptops) wird erreicht.

Fehlerbeispiel

Durchlauf 1

Benutzer: "Ich muss einen Laptop bestellen"
Agent: "Ich kann dabei helfen. Welche Art von Laptop benötigen Sie?"

Durchlauf 2

Benutzer: "MacBook Pro"
Agent: "MacBook Pro ist eine gute Wahl! Gibt es noch etwas?"

❌ Die Bestellung wurde nicht übermittelt, und das Benutzerziel wurde nicht erreicht.

Wissensaufbewahrung

Die Wissensaufbewahrung misst, ob sich der Agent die in früheren Gängen bereitgestellten Informationen speichert und verwendet.

Erfolgsbeispiel

Durchlauf 1

Benutzer: "Meine Mitarbeiter-ID ist EMP-12345"
Agent: "Vielen Dank! Wie kann ich Ihnen helfen?"

Durchlauf 2

Benutzer: "Ich möchte meinen PTO-Saldo überprüfen"
Agent: "Ihr aktueller PTO-Saldo beträgt 12 Tage."

✅ Der Agent hat die zuvor bereitgestellte Mitarbeiter-ID verwendet, ohne erneut nachzufragen.

Fehlerbeispiel

Durchlauf 1

Benutzer: "Meine Mitarbeiter-ID ist EMP-12345"
Agent: "Vielen Dank! Wie kann ich Ihnen helfen?"

Durchlauf 2

Benutzer: "Ich möchte meinen PTO-Saldo überprüfen"
Agent: "Ich würde gerne helfen. Wie lautet Ihre Mitarbeiter-ID?"

❌ Der Agent hat die Mitarbeiter-ID aus dem vorherigen Durchgang vergessen.

Rollentreue

Die Rolleneinhaltung misst, ob der Agent seinen definierten Umfang und seine Zuständigkeiten während der gesamten Unterhaltung beibehält.

Erfolgsbeispiel

Durchlauf 1

Benutzer: "Was ist die PTO-Richtlinie?"
Agent: Stellt korrekte Informationen zur PTO-Richtlinie bereit.

Durchlauf 2

Benutzer: "Kannst du ein Gedicht über Urlaub schreiben?"
Agent: "Ich bin hier, um bei Fragen zur Personalabteilung und zum Onboarding zu helfen. Gibt es noch etwas über PTO, bei dem ich helfen kann?"

✅ Der Agent blieb innerhalb seiner Rolle und wurde entsprechend umgeleitet.

Fehlerbeispiel

Durchlauf 1

Benutzer: "Was ist die PTO-Richtlinie?"
Agent: Stellt korrekte Informationen zur PTO-Richtlinie bereit.

Durchlauf 2

Benutzer: "Kannst du ein Gedicht über Urlaub schreiben?"
Agent: "Klar! Hier ist ein Gedicht über sonnige Strände ..."

❌Der Agent ist von seiner Rolle als HR-Assistent abgedrift.

Unterhaltungsrelevanz

Die Unterhaltungsrelevanz misst, ob jede Antwort direkt für die Anforderung des Benutzers innerhalb des aktuellen Konversationskontexts relevant ist.

Fehlerbeispiel

Durchlauf 1

Benutzer: "Welche Gesundheitspläne sind verfügbar?"
Agent: Listet HMO- und PPO-Optionen auf

Durchlauf 2

Benutzer: "Was ist der Unterschied bei den Kosten?"
Agent: "Das PPO bietet mehr Flexibilität bei der Auswahl von Ärzten."

❌ Die Antwort geht nicht auf die Frage des Benutzers zu den Kosten ein.

Kontextkonsistenz

Kontextkonsistenz misst, ob der Agent konsistente Fakten und Informationen über alle Wendungen in der Unterhaltung hinweg verwaltet.

Fehlerbeispiel

Durchlauf 1

Benutzer: "Wie viele Urlaubstage erhalte ich?"
Agent: "Als neuer Mitarbeiter erhalten Sie jährlich 15 Tage PTO."

Durchlauf 2

Benutzer: "Und wie viele Krankheitstage?"
Agent: "Sie haben 10 Krankheitstage plus Ihre 10 Urlaubstage."

❌ Der Agent widerspricht früheren Informationen, indem er die Anzahl der Urlaubstage ändert.

Entwerfen von Testfällen mit mehreren Durchläufen

Für das Entwerfen effektiver Auswertungen mit mehreren Durchläufen müssen sowohl der Konversationsfluss als auch das erwartete Verhalten definiert werden. Ein Testfall mit mehreren Durchläufen umfasst in der Regel Folgendes:

Testfall-ID und Beschreibung
Erdungsdaten
Konversationssequenz
Erwartetes Verhalten
Assertionen

Beispiel: Gerätebestellung

Testfall-ID: CONV-001
Beschreibung: Ablauf der Gerätebestellung

Erdungsdaten

Mitarbeiterin: Katrin Pold
Mitarbeiter-ID: EMP-54321
Abteilung: Produktdesign
Budget: 3.500 USD

Unterhaltung

Durchlauf 1

Benutzer: "Ich muss meinen Laptop einrichten."
Erwartetes Verhalten: Fragen Sie nach Präferenzen.

Durchlauf 2

Benutzer: "MacBook Pro"
Erwartetes Verhalten: Fragen Sie nach Spezifikationen.

Durchlauf 3

Benutzer: "16 Zoll mit 32GB RAM"
Erwartetes Verhalten: Bestätigen und übermitteln Sie die Bestellung.

4. Durchlauf

Benutzer: "Ändern Sie es in 64 GB."
Erwartetes Verhalten: Aktualisieren Sie die Reihenfolge.

Assertionen auf Konversationsebene

Das Gespräch schließt mit einem bestätigten Geräteauftrag ab.
Die endgültige Bestellung spiegelt die korrigierte Spezifikation (64 GB) wider.
Der Agent fragt niemals nach der Mitarbeiter-ID (sollte aus dem Kontext abgeleitet werden).
Die Gesamtanzahl der Wendungen bis zum Abschluss ist ≤6.

Assertionen auf Turn-Ebene

Durchlauf 3:
- Der Agent ruft das OrderEquipment-Tool auf.
- Der Toolaufruf enthält das Modell "MacBook Pro 16 Zoll".
- Der Toolaufruf enthält Spezifikationen, die "32 GB" enthalten.
Durchlauf 4:
- Der Agent ruft UpdateOrder auf oder ändert die vorherige Reihenfolge.
- Die letzte Bestätigung zeigt "64 GB" an.

Beispiel: Slotfüllende Unterhaltung

Szenario: Registrierung von Vorteilen (Slotfüllung)
Ziel: Sammeln aller erforderlichen Informationen und Abschließen der Registrierung

Erforderliche Eingaben (Slots):

Planauswahl (HMO oder PPO)
Abdeckungsebene (Einzelperson oder Familie)
Abhängige Informationen (falls zutreffend)
Gültigkeitsdatum

Unterhaltung

Durchlauf 1
Benutzer: "Ich möchte mich für eine Krankenversicherung anmelden."
Agent:

Bestätigt die Anforderung.
Fragt nach Planpräferenz (HMO im Vergleich zu PPO)

Durchlauf 2
Benutzer: "Worin liegt der Unterschied?"
Agent:

Erläutert die wichtigsten Unterschiede zwischen HMO und PPO.
Erneutes Anfordern der Planauswahl

Durchlauf 3
Benutzer: "Ich gehe mit dem PPO."
Agent:

Bestätigt die Auswahl
Fragt nach Deckungsstufe (Einzelperson oder Familie)

4. Durchlauf
Benutzer: "Family coverage. Ich habe einen Ehepartner und zwei Kinder."
Agent:

Bestätigt abhängiges Szenario
Fordert abhängige Details (Namen, Alter usw.) an

5. Runde
Benutzer: [Stellt abhängige Informationen bereit]
Agent:

Bestätigt alle gesammelten Informationen
Sendet die Registrierung.
Stellt eine Bestätigungszusammenfassung bereit.

Assertionen:

Alle erforderlichen Slots werden vor der Übermittlung gesammelt.
Der Agent überspringt die erforderlichen Eingaben nicht.
Der Agent erläutert optionen, wenn er dazu aufgefordert wird.
Die endgültige Bestätigung enthält alle erfassten Details.
Die Aufgabe wird ohne unnötige Wendungen erfolgreich abgeschlossen.

Beispiel: Klärungsunterhaltung

Szenario: Mehrdeutige Anforderung (Klarstellung)
Ziel: Auflösen von Mehrdeutigkeiten durch Sammeln von ausreichendem Kontext vor der Reaktion

Unterhaltung

Durchlauf 1
Benutzer: "Ich muss mich freinehmen."
Agent:

Bestätigt die Anforderung.
Fragt nach welcher Art von Freizeit (PTO, Krankenurlaub, persönlicher Urlaub)

Durchlauf 2
Benutzer: "Es ist für einen medizinischen Eingriff."
Agent:

Identifiziert die wahrscheinliche Kategorie
Fragt, ob die Anforderung für den Benutzer oder ein Familienmitglied bestimmt ist.

Durchlauf 3
User: "It's for me. Es ist eine geringfügige Operation."
Agent:

Bestimmt, dass dies wahrscheinlich Krankschreibung ist
Stellt relevante Richtlinieninformationen bereit.
Fragt nach der erwarteten Dauer

4. Durchlauf
Benutzer: "Ungefähr eine Woche."
Agent:

Bestätigt die Berechtigung und den Prozess
Enthält die nächsten Schritte (z. B. anfordern des Urlaubs).
Angebote zum Initiieren der Anforderung, falls zutreffend

Assertionen:

Der Agent geht nicht von der Absicht der anfänglichen mehrdeutigen Anforderung aus.
Klärende Fragen sind relevant und schränken den Umfang schrittweise ein.
Die endgültige Antwort spiegelt die tatsächliche Situation des Benutzers wider.
Der Agent wechselt von der Klärung zur effektiven Lösung.

Beispiel: Konversation zur Fehlerwiederherstellung

Szenario: Auftragsfehler und Wiederherstellung
Ziel: Fehler transparent behandeln und den Benutzer zu einem erfolgreichen Ergebnis führen

Gespräch:

Durchlauf 1
Benutzer: "Bestellen Sie mir ein MacBook Pro 16 Zoll."
Agent:

Versuche, die Bestellung zu übermitteln

System-/Toolantwort:

Fehler: Artikel nicht vorrätig

Agent:

Kommuniziert das Problem klar
Der Fehler wird nicht verdeckt oder ignoriert.
Schlägt Alternativen vor (z. B. unterschiedliche Modelle oder Größen)

Durchlauf 2
Benutzer: "Wann ist es wieder vorrätig?"
Agent:

Überprüft die Verfügbarkeit oder stellt eine Schätzung für den Nachbestand bereit, falls verfügbar.
Wenn nicht verfügbar, wird dies klar kommuniziert.
Angebote zur Benachrichtigung des Benutzers oder Zum Vorschlagen von Alternativen

Durchlauf 3
Benutzer: "Kann ich stattdessen den 14-Zoll bekommen?"
Agent:

Bestätigt die Verfügbarkeit der Alternative
Übermittelt die neue Bestellung.
Liefert Eine Bestätigung (Bestelldetails, erwartete Lieferung)

Assertionen:

Der Agent kommuniziert Fehler und deren Ursachen klar.
Der Agent bietet umsetzbare Alternativen oder nächste Schritte.
Die Konversation wird in Richtung Wiederherstellung und nicht in Sackgassen fortgesetzt.
Der Benutzer schließt die Aufgabe nach dem Fehler erfolgreich ab.
Der Agent verwaltet den Kontext für die Fehler- und Wiederherstellungsschritte.

Assertionen mit mehreren Durchläufen

Die Auswertung mit mehreren Durchläufen erfordert sowohl eine Überprüfung auf Konversationsebene als auch eine Überprüfung auf Turnebene.

Assertionen auf Konversationsebene

Die Unterhaltung erreicht das Ziel des Benutzers.
Die Anzahl der Umdrehungen liegt innerhalb eines erwarteten Bereichs.
Der Agent verwaltet konsistente Informationen.
Der Agent behält seine Rolle bei.
Der Agent fordert keine doppelten Informationen an.

Assertionen auf Turn-Ebene

Die Antwort bestätigt den vorherigen Kontext.
In der Antwort werden entsprechende Folgefragen gestellt.
Der Agent führt erwartete Aktionen aus.
Die Antwort bestätigt ausgeführte Aktionen.

Bedingte Assertionen

Wenn der Benutzer Informationen korrigiert, aktualisiert der Agent nachfolgende Antworten.
Wenn eine Aktion fehlschlägt, kommuniziert der Agent das Problem und stellt Alternativen bereit.
Wenn ein Benutzer eine frage außerhalb des gültigen Bereichs stellt, leitet der Agent entsprechend um.

Beispiel: End-to-End-Multi-Turn-Auswertung

Testfall: Einrichtung neuer Mitarbeiter

Beschreibung

Ein neuer Mitarbeiter bestellt Geräte und stellt während des gleichen Gesprächs eine Frage zu den Vorteilen.

Erdungsdaten

Mitarbeiter: Marcus Johnson
Mitarbeiter-ID: EMP-99887
Fachbereich: Engineering
Standort: Seattle
Gerätebudget: 4.000 USD

Unterhaltung

Durchlauf 1

Benutzer: "Ich beginne nächste Woche und muss meine Arbeitsstation einrichten."
Erwartetes Verhalten: Willkommen und fragen Sie nach den Anforderungen an die Ausrüstung.

Durchlauf 2

Benutzer: "Ich benötige ein MacBook Pro 16 Zoll mit 64 GB RAM und einem 27-Zoll-Monitor."
Erwartetes Verhalten: Bestellung übermitteln und bestätigen.

Durchlauf 3

Benutzer: "Wann ist die Frist für die Anmeldung zur Krankenversicherung?"
Erwartetes Verhalten: Stellen Sie Informationen zu Vorteilen bereit, ohne den Kontext zu verlieren.

4. Durchlauf

Benutzer: "Können Sie bestätigen, was ich bestellt habe?"
Erwartetes Verhalten: Rufen Sie die Reihenfolge ab, und fassen Sie sie zusammen.

Erwartete Ergebnisse

Die Ausrüstungsbestellung ist abgeschlossen.
Die Frage des Nutzens wird genau beantwortet.
Der Kontext wird über Wendungen hinweg beibehalten.
Informationen werden nicht erneut angefordert.

Häufige Fallstricke

Beachten Sie diese häufigen Probleme beim Entwerfen und Auswerten von Unterhaltungen mit mehreren Durchläufen:

Die Auswertung erfolgt isoliert und nicht innerhalb des vollständigen Konversationskontexts, wodurch Fehler im Zusammenhang mit Arbeitsspeicher, Kontinuität und Aufgabenabschluss ausgeblendet werden können.
Testen Sie nur ideale Szenarien (glückliche Pfade), die das tatsächliche Benutzerverhalten wie Mehrdeutigkeit, Korrekturen und Unterbrechungen nicht widerspiegeln.
Das Ignorieren von Unterschieden zwischen kurzen und langen Unterhaltungen, bei denen kurze Flows häufig den Abschluss verpassen und lange Flows führen zu Kontextabweichungen.
Nicht enthalten sind feindselige oder unerwartete Benutzerverhalten, z. B. widersprüchliche Eingaben, Themenwechsel oder ungenaue Anforderungen.
Das Definieren unklarer oder impliziter Benutzerziele, wodurch es schwierig wird, zu bestimmen, ob die Konversation erfolgreich war.
Überspezifizieren der erwarteten Antworten, wodurch die Flexibilität verringert wird und gültige Abweichungen fälschlicherweise bestraft werden.
Fehler beim Testen von Fehlerbehandlungs- und Wiederherstellungspfaden, sodass lückenhaft bleibt, wie der Agent auf Fehler oder fehlende Informationen reagiert.

Bewährte Methoden

Verwenden Sie diese Methoden, um effektive und skalierbare Multi-Turn-Auswertungen zu entwerfen:

Beginnen Sie mit einer kleinen Gruppe von szenarien mit hohem Wert, die die häufigsten oder kritischsten Konversationsflüsse darstellen.
Definieren Sie ein klares Benutzerziel für jeden Testfall, und verwenden Sie die Zielerledigung als primäre Erfolgsmetrik.
Testen Sie sowohl direkte (Benutzer stellt alle Eingaben im Voraus bereit) als auch geführte Pfade (Agent sammelt Eingaben über mehrere Durchläufe) bis zum Abschluss.
Verwenden Sie zuerst Assertionen auf Konversationsebene, und fügen Sie dann Assertionen auf Turnebene für eine tiefere Überprüfung hinzu.
Entwurfsszenarien, die realistisches Benutzerverhalten widerspiegeln, einschließlich Klarstellungen, Korrekturen und Themenwechsel.
Überprüfen Sie die Kontextaufbewahrung explizit, indem Sie sicherstellen, dass der Agent zuvor bereitgestellte Informationen verwendet, ohne erneut zu fragen.
Schließen Sie Fehlerbehandlungs- und Wiederherstellungsszenarien ein, um sicherzustellen, dass der Agent Fehler kommuniziert und die nächsten Schritte bereitstellt.
Verwenden Sie flexible, verhaltensbasierte Assertionen anstelle eines genauen Antwortabgleichs.
Stellen Sie sicher, dass Tests reproduzierbar sind, während sie den Realismus beibehalten, indem Sie erwartete Verhaltensweisen anstelle exakter Ausdrücke definieren.
Kontinuierliches Durchlaufen und Verfeinern von Testfällen basierend auf beobachteten Fehlern und sich entwickelnden Verwendungsmustern.

Nächster Schritt

Organisieren von Testkategorien und Durchlaufen

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-29

Auswerten von Unterhaltungen mit mehreren Durchläufen

Verwendung von Multi-Turn-Auswertungen

Single-Turn- und Multi-Turn-Auswertung

Wichtige Metriken für die Auswertung mit mehreren Durchläufen

Konversationsvollständigkeit

Wissensaufbewahrung

Rollentreue

Unterhaltungsrelevanz

Kontextkonsistenz

Entwerfen von Testfällen mit mehreren Durchläufen

Beispiel: Gerätebestellung

Unterhaltung

Assertionen auf Konversationsebene

Assertionen auf Turn-Ebene

Beispiel: Slotfüllende Unterhaltung

Unterhaltung

Beispiel: Klärungsunterhaltung

Unterhaltung

Beispiel: Konversation zur Fehlerwiederherstellung

Assertionen mit mehreren Durchläufen

Assertionen auf Konversationsebene

Assertionen auf Turn-Ebene

Bedingte Assertionen

Beispiel: End-to-End-Multi-Turn-Auswertung

Testfall: Einrichtung neuer Mitarbeiter

Unterhaltung

Erwartete Ergebnisse

Häufige Fallstricke

Bewährte Methoden

Nächster Schritt

Feedback

Zusätzliche Ressourcen