Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Echte Benutzer interagieren nicht mit Agents über isolierte Einzelfragenaustausche. Stattdessen beteiligen sie sich an Unterhaltungen, die Folgefragen, inkrementelle Informationsaustausch und mehrstufige Aufgabenausführung umfassen.
Die Mehrdurchlaufevaluierung trägt dazu bei, dass Ihr Agent den Kontext aufrechterhalten, Aufgaben in mehreren Schritten ausführen und während eines realistischen Konversationsflusses angemessen reagieren kann.
Verwendung von Multi-Turn-Auswertungen
Verwenden Sie die Auswertung mit mehreren Durchläufen, wenn Sie Szenarien testen, die eine Kontextaufbewahrung oder mehrere Schritte zum Ausführen einer Aufgabe erfordern.
| Szenario | Warum multi-turn erforderlich ist |
|---|---|
| Schlitzfüllung | Der Agent muss mehrere Informationen sammeln. |
| Klarstellungsabläufe | Der Agent muss mehrdeutige Benutzereingaben auflösen. |
| Aufgaben mit mehreren Schritten | Für die Aufgabe sind mehrere Austauschvorgänge erforderlich. |
| Kontextabhängige Nachverfolgungen | Spätere Fragen hängen von früheren Antworten ab. |
| Progressive Offenlegung | Informationen werden inkrementell bereitgestellt. |
Single-Turn- und Multi-Turn-Auswertung
Beginnen Sie mit Single-Turn-Auswertungen für die Abdeckung, und fügen Sie dann Multi-Turn-Auswertungen hinzu, um realistische Interaktionen zu testen.
| Aspekt | Einzelner Durchlauf | Mehrfachdrehen |
|---|---|---|
| Tests | Einzelne Frage-Antwort-Paare | Abschließen von Unterhaltungen |
| Kontext | Jede Eingabeaufforderung ist unabhängig. | Aufeinander aufbauen |
| Komplexität | Einfacheres Entwerfen und Auswerten | Realistischer, aber komplexer |
| Fehlerdiagnose | Leichter zu isolierende Probleme | Erfordert eine Turn-by-Turn-Analyse |
| Anwendungsfall | Testen bestimmter Antworten | Testen des Konversationsflusses |
Wichtige Metriken für die Auswertung mit mehreren Durchläufen
Für die Auswertung mit mehreren Durchläufen sind zusätzliche Metriken erforderlich, die über die Genauigkeit des einzelnen Durchlaufs hinausgehen. Diese Metriken bewerten, wie gut der Agent in einer gesamten Unterhaltung abschneidet.
Konversationsvollständigkeit
Die Konversationsvollständigkeit misst, ob der Agent das Ziel des Benutzers am Ende der Interaktion erreicht.
Erfolgsbeispiel
Durchlauf 1
- Benutzer: "Ich muss einen Laptop bestellen"
- Agent: "Ich kann dabei helfen. Welche Art von Laptop benötigen Sie?"
Durchlauf 2
- Benutzer: "MacBook Pro"
- Agent: "Welche Bildschirmgröße – 14 Zoll oder 16 Zoll?"
Durchlauf 3
- Benutzer: "16 Zoll"
- Agent: "Ich habe Ihre Bestellung für ein 16-Zoll-MacBook Pro eingereicht. Bestell-ID: ORD-456. Voraussichtliche Lieferung: 5–7 Werktage."
✅ Das Benutzerziel (Bestellen eines Laptops) wird erreicht.
Fehlerbeispiel
Durchlauf 1
- Benutzer: "Ich muss einen Laptop bestellen"
- Agent: "Ich kann dabei helfen. Welche Art von Laptop benötigen Sie?"
Durchlauf 2
- Benutzer: "MacBook Pro"
- Agent: "MacBook Pro ist eine gute Wahl! Gibt es noch etwas?"
❌ Die Bestellung wurde nicht übermittelt, und das Benutzerziel wurde nicht erreicht.
Wissensaufbewahrung
Die Wissensaufbewahrung misst, ob sich der Agent die in früheren Gängen bereitgestellten Informationen speichert und verwendet.
Erfolgsbeispiel
Durchlauf 1
- Benutzer: "Meine Mitarbeiter-ID ist EMP-12345"
- Agent: "Vielen Dank! Wie kann ich Ihnen helfen?"
Durchlauf 2
- Benutzer: "Ich möchte meinen PTO-Saldo überprüfen"
- Agent: "Ihr aktueller PTO-Saldo beträgt 12 Tage."
✅ Der Agent hat die zuvor bereitgestellte Mitarbeiter-ID verwendet, ohne erneut nachzufragen.
Fehlerbeispiel
Durchlauf 1
- Benutzer: "Meine Mitarbeiter-ID ist EMP-12345"
- Agent: "Vielen Dank! Wie kann ich Ihnen helfen?"
Durchlauf 2
- Benutzer: "Ich möchte meinen PTO-Saldo überprüfen"
- Agent: "Ich würde gerne helfen. Wie lautet Ihre Mitarbeiter-ID?"
❌ Der Agent hat die Mitarbeiter-ID aus dem vorherigen Durchgang vergessen.
Rollentreue
Die Rolleneinhaltung misst, ob der Agent seinen definierten Umfang und seine Zuständigkeiten während der gesamten Unterhaltung beibehält.
Erfolgsbeispiel
Durchlauf 1
- Benutzer: "Was ist die PTO-Richtlinie?"
- Agent: Stellt korrekte Informationen zur PTO-Richtlinie bereit.
Durchlauf 2
- Benutzer: "Kannst du ein Gedicht über Urlaub schreiben?"
- Agent: "Ich bin hier, um bei Fragen zur Personalabteilung und zum Onboarding zu helfen. Gibt es noch etwas über PTO, bei dem ich helfen kann?"
✅ Der Agent blieb innerhalb seiner Rolle und wurde entsprechend umgeleitet.
Fehlerbeispiel
Durchlauf 1
- Benutzer: "Was ist die PTO-Richtlinie?"
- Agent: Stellt korrekte Informationen zur PTO-Richtlinie bereit.
Durchlauf 2
- Benutzer: "Kannst du ein Gedicht über Urlaub schreiben?"
- Agent: "Klar! Hier ist ein Gedicht über sonnige Strände ..."
❌Der Agent ist von seiner Rolle als HR-Assistent abgedrift.
Unterhaltungsrelevanz
Die Unterhaltungsrelevanz misst, ob jede Antwort direkt für die Anforderung des Benutzers innerhalb des aktuellen Konversationskontexts relevant ist.
Fehlerbeispiel
Durchlauf 1
- Benutzer: "Welche Gesundheitspläne sind verfügbar?"
- Agent: Listet HMO- und PPO-Optionen auf
Durchlauf 2
- Benutzer: "Was ist der Unterschied bei den Kosten?"
- Agent: "Das PPO bietet mehr Flexibilität bei der Auswahl von Ärzten."
❌ Die Antwort geht nicht auf die Frage des Benutzers zu den Kosten ein.
Kontextkonsistenz
Kontextkonsistenz misst, ob der Agent konsistente Fakten und Informationen über alle Wendungen in der Unterhaltung hinweg verwaltet.
Fehlerbeispiel
Durchlauf 1
- Benutzer: "Wie viele Urlaubstage erhalte ich?"
- Agent: "Als neuer Mitarbeiter erhalten Sie jährlich 15 Tage PTO."
Durchlauf 2
- Benutzer: "Und wie viele Krankheitstage?"
- Agent: "Sie haben 10 Krankheitstage plus Ihre 10 Urlaubstage."
❌ Der Agent widerspricht früheren Informationen, indem er die Anzahl der Urlaubstage ändert.
Entwerfen von Testfällen mit mehreren Durchläufen
Für das Entwerfen effektiver Auswertungen mit mehreren Durchläufen müssen sowohl der Konversationsfluss als auch das erwartete Verhalten definiert werden. Ein Testfall mit mehreren Durchläufen umfasst in der Regel Folgendes:
- Testfall-ID und Beschreibung
- Erdungsdaten
- Konversationssequenz
- Erwartetes Verhalten
- Assertionen
Beispiel: Gerätebestellung
- Testfall-ID: CONV-001
- Beschreibung: Ablauf der Gerätebestellung
Erdungsdaten
- Mitarbeiterin: Katrin Pold
- Mitarbeiter-ID: EMP-54321
- Abteilung: Produktdesign
- Budget: 3.500 USD
Unterhaltung
Durchlauf 1
- Benutzer: "Ich muss meinen Laptop einrichten."
- Erwartetes Verhalten: Fragen Sie nach Präferenzen.
Durchlauf 2
- Benutzer: "MacBook Pro"
- Erwartetes Verhalten: Fragen Sie nach Spezifikationen.
Durchlauf 3
- Benutzer: "16 Zoll mit 32GB RAM"
- Erwartetes Verhalten: Bestätigen und übermitteln Sie die Bestellung.
4. Durchlauf
- Benutzer: "Ändern Sie es in 64 GB."
- Erwartetes Verhalten: Aktualisieren Sie die Reihenfolge.
Assertionen auf Konversationsebene
- Das Gespräch schließt mit einem bestätigten Geräteauftrag ab.
- Die endgültige Bestellung spiegelt die korrigierte Spezifikation (64 GB) wider.
- Der Agent fragt niemals nach der Mitarbeiter-ID (sollte aus dem Kontext abgeleitet werden).
- Die Gesamtanzahl der Wendungen bis zum Abschluss ist ≤6.
Assertionen auf Turn-Ebene
-
Durchlauf 3:
- Der Agent ruft das OrderEquipment-Tool auf.
- Der Toolaufruf enthält das Modell "MacBook Pro 16 Zoll".
- Der Toolaufruf enthält Spezifikationen, die "32 GB" enthalten.
-
Durchlauf 4:
- Der Agent ruft UpdateOrder auf oder ändert die vorherige Reihenfolge.
- Die letzte Bestätigung zeigt "64 GB" an.
Beispiel: Slotfüllende Unterhaltung
Szenario: Registrierung von Vorteilen (Slotfüllung)
Ziel: Sammeln aller erforderlichen Informationen und Abschließen der Registrierung
Erforderliche Eingaben (Slots):
- Planauswahl (HMO oder PPO)
- Abdeckungsebene (Einzelperson oder Familie)
- Abhängige Informationen (falls zutreffend)
- Gültigkeitsdatum
Unterhaltung
Durchlauf 1
Benutzer: "Ich möchte mich für eine Krankenversicherung anmelden."
Agent:
- Bestätigt die Anforderung.
- Fragt nach Planpräferenz (HMO im Vergleich zu PPO)
Durchlauf 2
Benutzer: "Worin liegt der Unterschied?"
Agent:
- Erläutert die wichtigsten Unterschiede zwischen HMO und PPO.
- Erneutes Anfordern der Planauswahl
Durchlauf 3
Benutzer: "Ich gehe mit dem PPO."
Agent:
- Bestätigt die Auswahl
- Fragt nach Deckungsstufe (Einzelperson oder Familie)
4. Durchlauf
Benutzer: "Family coverage. Ich habe einen Ehepartner und zwei Kinder."
Agent:
- Bestätigt abhängiges Szenario
- Fordert abhängige Details (Namen, Alter usw.) an
5. Runde
Benutzer: [Stellt abhängige Informationen bereit]
Agent:
- Bestätigt alle gesammelten Informationen
- Sendet die Registrierung.
- Stellt eine Bestätigungszusammenfassung bereit.
Assertionen:
- Alle erforderlichen Slots werden vor der Übermittlung gesammelt.
- Der Agent überspringt die erforderlichen Eingaben nicht.
- Der Agent erläutert optionen, wenn er dazu aufgefordert wird.
- Die endgültige Bestätigung enthält alle erfassten Details.
- Die Aufgabe wird ohne unnötige Wendungen erfolgreich abgeschlossen.
Beispiel: Klärungsunterhaltung
Szenario: Mehrdeutige Anforderung (Klarstellung)
Ziel: Auflösen von Mehrdeutigkeiten durch Sammeln von ausreichendem Kontext vor der Reaktion
Unterhaltung
Durchlauf 1
Benutzer: "Ich muss mich freinehmen."
Agent:
- Bestätigt die Anforderung.
- Fragt nach welcher Art von Freizeit (PTO, Krankenurlaub, persönlicher Urlaub)
Durchlauf 2
Benutzer: "Es ist für einen medizinischen Eingriff."
Agent:
- Identifiziert die wahrscheinliche Kategorie
- Fragt, ob die Anforderung für den Benutzer oder ein Familienmitglied bestimmt ist.
Durchlauf 3
User: "It's for me. Es ist eine geringfügige Operation."
Agent:
- Bestimmt, dass dies wahrscheinlich Krankschreibung ist
- Stellt relevante Richtlinieninformationen bereit.
- Fragt nach der erwarteten Dauer
4. Durchlauf
Benutzer: "Ungefähr eine Woche."
Agent:
- Bestätigt die Berechtigung und den Prozess
- Enthält die nächsten Schritte (z. B. anfordern des Urlaubs).
- Angebote zum Initiieren der Anforderung, falls zutreffend
Assertionen:
- Der Agent geht nicht von der Absicht der anfänglichen mehrdeutigen Anforderung aus.
- Klärende Fragen sind relevant und schränken den Umfang schrittweise ein.
- Die endgültige Antwort spiegelt die tatsächliche Situation des Benutzers wider.
- Der Agent wechselt von der Klärung zur effektiven Lösung.
Beispiel: Konversation zur Fehlerwiederherstellung
Szenario: Auftragsfehler und Wiederherstellung
Ziel: Fehler transparent behandeln und den Benutzer zu einem erfolgreichen Ergebnis führen
Gespräch:
Durchlauf 1
Benutzer: "Bestellen Sie mir ein MacBook Pro 16 Zoll."
Agent:
- Versuche, die Bestellung zu übermitteln
System-/Toolantwort:
- Fehler: Artikel nicht vorrätig
Agent:
- Kommuniziert das Problem klar
- Der Fehler wird nicht verdeckt oder ignoriert.
- Schlägt Alternativen vor (z. B. unterschiedliche Modelle oder Größen)
Durchlauf 2
Benutzer: "Wann ist es wieder vorrätig?"
Agent:
- Überprüft die Verfügbarkeit oder stellt eine Schätzung für den Nachbestand bereit, falls verfügbar.
- Wenn nicht verfügbar, wird dies klar kommuniziert.
- Angebote zur Benachrichtigung des Benutzers oder Zum Vorschlagen von Alternativen
Durchlauf 3
Benutzer: "Kann ich stattdessen den 14-Zoll bekommen?"
Agent:
- Bestätigt die Verfügbarkeit der Alternative
- Übermittelt die neue Bestellung.
- Liefert Eine Bestätigung (Bestelldetails, erwartete Lieferung)
Assertionen:
- Der Agent kommuniziert Fehler und deren Ursachen klar.
- Der Agent bietet umsetzbare Alternativen oder nächste Schritte.
- Die Konversation wird in Richtung Wiederherstellung und nicht in Sackgassen fortgesetzt.
- Der Benutzer schließt die Aufgabe nach dem Fehler erfolgreich ab.
- Der Agent verwaltet den Kontext für die Fehler- und Wiederherstellungsschritte.
Assertionen mit mehreren Durchläufen
Die Auswertung mit mehreren Durchläufen erfordert sowohl eine Überprüfung auf Konversationsebene als auch eine Überprüfung auf Turnebene.
Assertionen auf Konversationsebene
- Die Unterhaltung erreicht das Ziel des Benutzers.
- Die Anzahl der Umdrehungen liegt innerhalb eines erwarteten Bereichs.
- Der Agent verwaltet konsistente Informationen.
- Der Agent behält seine Rolle bei.
- Der Agent fordert keine doppelten Informationen an.
Assertionen auf Turn-Ebene
- Die Antwort bestätigt den vorherigen Kontext.
- In der Antwort werden entsprechende Folgefragen gestellt.
- Der Agent führt erwartete Aktionen aus.
- Die Antwort bestätigt ausgeführte Aktionen.
Bedingte Assertionen
- Wenn der Benutzer Informationen korrigiert, aktualisiert der Agent nachfolgende Antworten.
- Wenn eine Aktion fehlschlägt, kommuniziert der Agent das Problem und stellt Alternativen bereit.
- Wenn ein Benutzer eine frage außerhalb des gültigen Bereichs stellt, leitet der Agent entsprechend um.
Beispiel: End-to-End-Multi-Turn-Auswertung
Testfall: Einrichtung neuer Mitarbeiter
Beschreibung
Ein neuer Mitarbeiter bestellt Geräte und stellt während des gleichen Gesprächs eine Frage zu den Vorteilen.
Erdungsdaten
- Mitarbeiter: Marcus Johnson
- Mitarbeiter-ID: EMP-99887
- Fachbereich: Engineering
- Standort: Seattle
- Gerätebudget: 4.000 USD
Unterhaltung
Durchlauf 1
- Benutzer: "Ich beginne nächste Woche und muss meine Arbeitsstation einrichten."
- Erwartetes Verhalten: Willkommen und fragen Sie nach den Anforderungen an die Ausrüstung.
Durchlauf 2
- Benutzer: "Ich benötige ein MacBook Pro 16 Zoll mit 64 GB RAM und einem 27-Zoll-Monitor."
- Erwartetes Verhalten: Bestellung übermitteln und bestätigen.
Durchlauf 3
- Benutzer: "Wann ist die Frist für die Anmeldung zur Krankenversicherung?"
- Erwartetes Verhalten: Stellen Sie Informationen zu Vorteilen bereit, ohne den Kontext zu verlieren.
4. Durchlauf
- Benutzer: "Können Sie bestätigen, was ich bestellt habe?"
- Erwartetes Verhalten: Rufen Sie die Reihenfolge ab, und fassen Sie sie zusammen.
Erwartete Ergebnisse
- Die Ausrüstungsbestellung ist abgeschlossen.
- Die Frage des Nutzens wird genau beantwortet.
- Der Kontext wird über Wendungen hinweg beibehalten.
- Informationen werden nicht erneut angefordert.
Häufige Fallstricke
Beachten Sie diese häufigen Probleme beim Entwerfen und Auswerten von Unterhaltungen mit mehreren Durchläufen:
- Die Auswertung erfolgt isoliert und nicht innerhalb des vollständigen Konversationskontexts, wodurch Fehler im Zusammenhang mit Arbeitsspeicher, Kontinuität und Aufgabenabschluss ausgeblendet werden können.
- Testen Sie nur ideale Szenarien (glückliche Pfade), die das tatsächliche Benutzerverhalten wie Mehrdeutigkeit, Korrekturen und Unterbrechungen nicht widerspiegeln.
- Das Ignorieren von Unterschieden zwischen kurzen und langen Unterhaltungen, bei denen kurze Flows häufig den Abschluss verpassen und lange Flows führen zu Kontextabweichungen.
- Nicht enthalten sind feindselige oder unerwartete Benutzerverhalten, z. B. widersprüchliche Eingaben, Themenwechsel oder ungenaue Anforderungen.
- Das Definieren unklarer oder impliziter Benutzerziele, wodurch es schwierig wird, zu bestimmen, ob die Konversation erfolgreich war.
- Überspezifizieren der erwarteten Antworten, wodurch die Flexibilität verringert wird und gültige Abweichungen fälschlicherweise bestraft werden.
- Fehler beim Testen von Fehlerbehandlungs- und Wiederherstellungspfaden, sodass lückenhaft bleibt, wie der Agent auf Fehler oder fehlende Informationen reagiert.
Bewährte Methoden
Verwenden Sie diese Methoden, um effektive und skalierbare Multi-Turn-Auswertungen zu entwerfen:
- Beginnen Sie mit einer kleinen Gruppe von szenarien mit hohem Wert, die die häufigsten oder kritischsten Konversationsflüsse darstellen.
- Definieren Sie ein klares Benutzerziel für jeden Testfall, und verwenden Sie die Zielerledigung als primäre Erfolgsmetrik.
- Testen Sie sowohl direkte (Benutzer stellt alle Eingaben im Voraus bereit) als auch geführte Pfade (Agent sammelt Eingaben über mehrere Durchläufe) bis zum Abschluss.
- Verwenden Sie zuerst Assertionen auf Konversationsebene, und fügen Sie dann Assertionen auf Turnebene für eine tiefere Überprüfung hinzu.
- Entwurfsszenarien, die realistisches Benutzerverhalten widerspiegeln, einschließlich Klarstellungen, Korrekturen und Themenwechsel.
- Überprüfen Sie die Kontextaufbewahrung explizit, indem Sie sicherstellen, dass der Agent zuvor bereitgestellte Informationen verwendet, ohne erneut zu fragen.
- Schließen Sie Fehlerbehandlungs- und Wiederherstellungsszenarien ein, um sicherzustellen, dass der Agent Fehler kommuniziert und die nächsten Schritte bereitstellt.
- Verwenden Sie flexible, verhaltensbasierte Assertionen anstelle eines genauen Antwortabgleichs.
- Stellen Sie sicher, dass Tests reproduzierbar sind, während sie den Realismus beibehalten, indem Sie erwartete Verhaltensweisen anstelle exakter Ausdrücke definieren.
- Kontinuierliches Durchlaufen und Verfeinern von Testfällen basierend auf beobachteten Fehlern und sich entwickelnden Verwendungsmustern.