Designbewertungsexperimente

10 Minuten

Das Optimieren von KI-Agents erfordert mehr als Änderungen und hoffen, dass sie besser funktionieren. Eine effektive Optimierung hängt von strukturierten Experimenten ab, die Agentvarianten objektiv vergleichen, Qualitätsverbesserungen, Kostenwirkungen und Leistungseigenschaften messen. Betrachten Sie Adventure Works, ein Outdoor-Abenteuer-Unternehmen, das einen Trail Guide Agent verwaltet, der Kunden hilft, Wanderungen mit Trailempfehlungen, Unterkunftsbuchungen und Ausrüstungsvorschlägen zu planen. Das Team möchte die Betriebskosten senken, indem er von GPT-4 zu GPT-4 mini wechselt, aber sie müssen überprüfen, dass die Qualität nicht unter ihrem 4,2/5.0-Kundenzufriedenheitsziel sinkt und die Reaktionszeiten unter 30 Sekunden liegen. Hier erfahren Sie, wie Sie Auswertungsexperimente entwerfen, indem Sie Metriken definieren, Varianten zum Testen auswählen und systematische Testansätze erstellen.

Auswertungsmetriken messen objektive Qualität (Intentauflösung, Relevanz, Fundierung), Kosten (Tokennutzung, Modellkosten) und Leistung (Reaktionszeit, Zeit-bis-zum-ersten-Token).

Zu testende Varianten gehören die Basisversion, Aufforderungsvariationen, Modellalternativen (GPT-4, GPT-4 mini) und Agentkonfigurationsänderungen (max_tokens, streaming), um festzustellen, welche Änderungen die Leistung in allen drei Dimensionen verbessern.

Der Testansatz umfasst Testaufforderungen, die verschiedene Anwendungsfälle, Erfolgskriterien und Schwellenwerte, Vergleichsmethode und Dokumentation zur Reproduzierbarkeit abdecken, um zuverlässige Ergebnisse und Teamzusammenarbeit sicherzustellen.

Definieren von Auswertungsmetriken

Jedes Experiment benötigt objektive Maßnahmen, die erkennen, ob Änderungen die Leistung des Agenten verbessern oder beeinträchtigen. Ohne klare Metriken können Sie nicht zwischen tatsächlichen Verbesserungen und subjektiven Vorlieben unterscheiden.

Qualitätsmetriken messen, wie gut der Agent den Benutzeranforderungen entspricht. Microsoft Foundry bietet integrierte Evaluatoren, die in Kategorien unterteilt sind, die für verschiedene Auswertungsszenarien konzipiert sind:

Allgemeine Bewerter (Kohärenz, Flüssigkeit): Wird verwendet, um logischen Fluss, Konsistenz und natürliche Sprachqualität in allen Anwendungen zu bewerten.
Textbezogene Ähnlichkeitsbewertungen (Ähnlichkeit, F1 Score, BLEU, GLEU, ROUGE, METEOR): Verwenden Sie beim Vergleichen generierter Antworten mit erwarteten oder bodenbasierten Wahrheitsantworten, insbesondere für Übersetzungs- oder Benchmarking-Aufgaben.
Agent-Auswertungen (Vorgangsvervollständigung, Aufgabenabschluss, Absichtsauflösung, Toolanrufgenauigkeit, Toolauswahl, Tooleingabegenauigkeit): Wird für Agentanwendungen verwendet, die mehrstufige Workflows ausführen, Toolaufrufe tätigen oder die korrekte Aufgabenausführung überprüfen müssen.
RAG-Gutachter (Abruf, Dokumentabruf, Fundiertheit, Fundiertheit Pro): Verwenden Sie diese, wenn Ihr Agent Informationen aus Wissensdatenbanken oder Dokumenten abruft und Sie überprüfen müssen, ob Antworten durch autoritative Quellen fundiert sind.
Risiko- und Sicherheitsbewertungen (Hass und Unfairness, Sexuelle, Gewalt, Selbstverletzung, geschützte Materialien, Inhaltssicherheit): Verwendung für alle kundenorientierten Anwendungen, um verantwortungsvolle KI-Praktiken zu gewährleisten und das Vertrauen der Benutzer aufrechtzuerhalten.
Azure OpenAI Graders (Model Labeler, String Checker, Text Similarity, Model Scorer): Wird für benutzerdefinierte Bewertungslogik und flexible Validierungsmuster verwendet, wenn integrierte Auswertungen nicht Ihren spezifischen Kriterien entsprechen.
Benutzerdefinierte Bewerter: Erstellen Sie Ihre eigene Auswertungslogik für geschäftsspezifische Anforderungen wie Markenstimme-Compliance, behördliche Einhaltung oder domänenspezifische Genauigkeitsmaßnahmen.

Tipp

Für detaillierte Spezifikationen der einzelnen Evaluatoren, einschließlich der erforderlichen Eingaben, Bewertungsbereiche und Implementierungsleitfäden, lesen Sie mehr in der Evaluatoren-Referenz.

Kostenmetriken quantifizieren die Betriebsausgaben für den Betrieb Ihres Agents. Die Tokenverwendung misst die Anzahl der Eingabe- und Ausgabetoken, die das Modell für jede Anforderung verarbeitet. Die Preisgestaltung des Modells wandelt Token basierend auf der Tarifstruktur des Modells in tatsächliche Kosten um. Für GPT-4 zahlen Sie möglicherweise 30 pro Million Token, während GPT-4 Mini 7,50 pro Million Token kostet. Mit diesen Metriken können Sie berechnen, dass die Verarbeitung von 800 Token mit GPT-4 ungefähr 0,024 pro Anforderung kostet, während die gleiche Anforderung mit GPT-4 mini 0,006 kostet – eine Reduzierung von 75%. Im Maßstab von Adventure Works bei der täglichen Bearbeitung von Tausenden von Kundenanfragen wirkt sich dieser Unterschied erheblich auf ihre operativen Effizienzziele aus. Aktuelle Preisdetails für alle Modelle sind im Microsoft Foundry-Preis verfügbar.

Leistungsmetriken messen die Reaktionsgeschwindigkeit und die Benutzererfahrung. Die End-to-End-Antwortzeit erfasst, wie lange Kunden auf vollständige Antworten warten – wichtig für Echtzeitinteraktionen, bei denen Adventure Works auf 30 Sekunden durchschnittliche Antworten ausgerichtet ist. Bei Anwendungen, die Streaming verwenden, misst die Zeit bis zum ersten Token die wahrgenommene Reaktionsfähigkeit: wie schnell Benutzer sehen, dass der Agent mit der Generierung einer Antwort beginnt. Ein kürzeres Time-to-First-Token schafft eine bessere Benutzererfahrung, auch wenn die Gesamtantwortzeit unverändert bleibt. Die Modellauswahl wirkt sich erheblich auf diese Metriken aus – GPT-4 mini reagiert in der Regel schneller als GPT-4, während die Länge der Eingabeaufforderung und die Generierungsgröße (gesteuert durch max_tokens) direkt die Reaktionszeit beeinflussen.

Tipp

Erfahren Sie mehr über Optimierungstechniken für Leistung und Latenz.

Zu testende Varianten auswählen

Optimierungsexperimente vergleichen eine Basisversion mit einer oder mehreren Varianten, um zu ermitteln, welche Konfiguration am besten funktioniert. Der Basisplan stellt Ihren aktuellen Produktionsagenten oder Ihren Ausgangspunkt dar, während Varianten bestimmte Änderungen einführen, die Sie auswerten möchten.

Aufforderungsvariationen ändern die Systemanweisungen, die das Verhalten des Agents leiten. Sie können eine präzise Eingabeaufforderung mit einer detaillierten Eingabeaufforderung vergleichen oder verschiedene Ansätze zur Behandlung von Randfällen vergleichen. Mit dem Adventure Works Trail Guide Agent kann eine Variante Vertriebsempfehlungen für Ausrüstungen hervorheben, während eine andere Ausrüstungsvorschläge mit Sicherheitsaspekten ausgleicht. Die Länge der Aufforderung wirkt sich auch auf die Leistung aus: Kürzere Eingabeaufforderungen verringern die Latenz, während detailliertere Aufforderungen möglicherweise die Antwortqualität verbessern. Das Testen beider Extreme zeigt das optimale Gleichgewicht für Ihren Anwendungsfall.

Modellalternativen vergleichen unterschiedliche Modellstufen, um Funktionen, Kosten und Leistung in Einklang zu bringen. GPT-4 bietet anspruchsvolles Denken, das sich in komplexen Reiseplanungsszenarien auszeichnet, kostet jedoch mehr und reagiert langsamer. GPT-4 mini bietet eine starke Leistung bei geringeren Kosten mit schnelleren Reaktionszeiten, sodass sie ideal für anwendungen mit hohem Volumen und latenzempfindlichen Anwendungen geeignet ist. Beide Tests zeigen, ob das einfachere Modell eine akzeptable Qualität für das Ziel von Adventure Works von 85% Untersuchungsauflösung ohne menschliche Eskalation gewährleistet, während sie ihre 30-Sekunden-durchschnittliche Antwortzeitanforderung erfüllen.

Änderungen der Agentkonfiguration passen technische Parameter an, die sich auf Qualität, Kosten und Benutzererfahrung auswirken:

max_tokens Parameter: Begrenzt die Länge der Generation – niedrigere Werte reduzieren sowohl Kosten als auch Latenz, können aber hilfreiche Informationen abschneiden.
Streaming (stream: true): Ändert keine Gesamtantwortzeit, verbessert jedoch die wahrgenommene Reaktionsfähigkeit, indem Token angezeigt werden, während sie generiert werden, wodurch eine bessere Benutzererfahrung für Unterhaltungsschnittstellen entsteht.
Temperatureinstellungen: Niedrigere Temperaturen erzeugen vorhersehbarere und konsistentere Reaktionen, während höhere Temperaturen eine kreativere Variation ermöglichen.
Abrufstrategien: Angepasste Abrufkonfigurationen können relevantere Informationen basierend auf Kontext, Näherung oder anderen Kriterien anzeigen.

Die Agentoptimierung umfasst den Ausgleich von drei konkurrierenden Prioritäten: Qualität (wie gut die Antworten den Benutzeranforderungen entsprechen), Kosten (Betriebskosten im großen Maßstab) und Leistung (Reaktionsgeschwindigkeit und Benutzererfahrung). Eine Variante, die Kosten um 75% reduziert, hilft nicht, wenn sie die Qualität unter akzeptablen Schwellenwerten beeinträchtigt oder eine inakzeptable Latenz für Kundeninteraktionen in Echtzeit einführt. Ihre Experimente müssen alle drei Dimensionen messen, um fundierte Kompromissentscheidungen zu treffen.

Das Schlüsselprinzip ist der kontrollierte Vergleich. Wenn Sie mehrere Änderungen gleichzeitig testen, können Sie nicht ermitteln, welche Änderung beobachtete Unterschiede verursacht hat. Das Testen einer neuen Eingabeaufforderung mit einem neuen Modell schafft Mehrdeutigkeit: Hat sich die Kundenzufriedenheit aufgrund der Aufforderung, des Modells oder ihrer Interaktion verbessert? Ändern Sie jeweils eine Variable, um die Auswirkungen jeder Änderung zu isolieren. Nach der Überprüfung einzelner Änderungen können Sie Kombinationen erfolgreicher Varianten testen.

Entwerfen des Testansatzes

Ein systematischer Testansatz wandelt vage Verbesserungsziele in zuverlässige experimentelle Ergebnisse durch sorgfältige Testaufforderungsgestaltung, klare Erfolgskriterien und dokumentierte Methodik um.

Repräsentative Testaufforderungen decken das Spektrum der realen Nutzung ab. Für den Adventure Works Trail Guide Agent umfassen die Testaufforderungen Anfragen aus verschiedenen Kundensegmenten, die Empfehlungen für Ausrüstungen suchen.

Digitale Nomaden planen Wochenendwanderungen: "Ich wandere im schottischen Hochland im März, welche wasserdichte Ausrüstung benötige ich von Adventure Works?"
Familien bereiten sich auf ihr erstes Outdoor-Abenteuer vor: "Wir nehmen unsere Teenager auf einfache Trails in der Nähe von London im nächsten Monat, welche Grundausrüstung sollten wir kaufen oder mieten?"
Erfahrene Wanderer planen erweiterte Reisen: "Ich benötige eine komplette Ausrüstungsliste für fünftägige Backpacking-Reise in moderatem Gelände mit variablem Wetter."

Edgefälle testen, wie der Agent anspruchsvolle Situationen behandelt:

Mehrdeutige Anfragen: "Was soll ich zum Wandern packen?"
Unvollständige Reisedetails: "Ich benötige Ausrüstung für Schottland."
Last-Minute-Änderungen der Ausrüstung: „Kann ich meine gemietete Campingausrüstung gegen unterschiedliche Größen tauschen?“

Das Verwenden von fünf bis 10 verschiedenen Test-Prompts bietet eine umfassende Abdeckung für manuelle Tests und Feuerproben, während die Bewertung durch Menschen nach wie vor gut möglich bleibt. Jede Testaufforderung erfasst die Benutzerabfrage, erwartete Informationsanforderungen und ideale Antwortmerkmale.

Erfolgskriterien legen fest, was eine akzeptable Leistung darstellt, bevor Sie Experimente ausführen. Das Festlegen von Schwellenwerten im Voraus verhindert eine Rationalisierung der enttäuschenden Ergebnisse. Adventure Works definiert Erfolgsschwellenwerte in allen drei Optimierungsdimensionen:

Qualität: Durchschnittlich 4,2+ (Fünf-Punkt-Skala), mindestens 3,5 pro Antwort, um die Ziele der Kundenzufriedenheit auszurichten und Vertrauenserosion zu verhindern.
Kosten: 60% Kostenreduzierung, um betriebliche Effizienzziele zu erreichen und dabei 85% Abwicklungsrate aufrechtzuerhalten.
Leistung: Durchschnittliche Reaktionszeit <von 30 Sekunden, Zeit-zu-Erster Token <2 Sekunden (Streaming), um eine akzeptable Benutzererfahrung für Echtzeitinteraktionen zu gewährleisten.

Geschäftsanforderungen beeinflussen diese Schwellenwerte: Kundenorientierte Agenten, die die Reiseplanung verarbeiten, benötigen höhere Qualitätsstandards und schnellere Reaktionszeiten als interne Tools.

Ihre Vergleichsmethode führt jede Variante mit den gleichen Testeingabeaufforderungen, Aufzeichnungsqualitätsbewertungen, Tokenverwendung und Antwortzeiten aus. Durch das Organisieren von Ergebnissen werden Muster angezeigt. Beispielsweise könnte GPT-4 Mini bei einfachen Abfragen hervorragend sein, aber mit komplexer Planung Schwierigkeiten haben. Dokumentieren Sie Ihr Experimentdesign, um die Reproduzierbarkeit sicherzustellen: Testaufforderungen, Bewertungskriterien, Variantenkonfigurationen und Rationale.

Mit umfassendem Experimentdesign sind Sie bereit, diese Experimente mithilfe von Versionssteuerungsworkflows zu implementieren, die sichere Tests und teamübergreifende Zusammenarbeit ermöglichen.

Feedback

War diese Seite hilfreich?