Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn Auswertungsergebnisse Fehler erkennen, besteht die nächste Herausforderung darin, zu wissen, was mit ihnen zu tun ist. Das Triage- und Remediierungsframework bietet Ihnen eine strukturierte Möglichkeit, Bewertungen zu interpretieren, Fehler zu diagnostizieren, Verantwortlichkeiten zu ermitteln und bestimmte Korrekturen zuzuordnen – ohne der falschen Ursache nachzugehen oder Bewertungen isoliert zu optimieren. In diesem Artikel werden die Ziele, die Struktur und die Voraussetzungen des Frameworks vorgestellt, sodass Sie die Auswertungsergebnisse systematisch durcharbeiten und Ihren Agenten zur Produktionsbereitschaft bewegen können.
Was das Framework Ihnen hilft zu tun
Das Framework bietet eine strukturierte Möglichkeit, um von Ergebnissen zu Aktionen zu wechseln, indem sie Ihnen helfen:
- Interpretieren von Bewertungsergebnissen im Kontext
- Priorisieren von Fehlern basierend auf Risiko und Auswirkungen
- Diagnostizieren, warum ein Testfall fehlgeschlagen ist
- Unterscheiden zwischen:
- Probleme bei der Evaluierungseinrichtung
- Probleme bei der Agentkonfiguration
- Plattform- oder Funktionsbeschränkungen
Jedes diagnostizierte Problem ist einer bestimmten, testbaren Wartungsaktion zugeordnet.
Das Ziel besteht nicht darin, die Ergebnisse isoliert zu optimieren, sondern den Fokus darauf zu legen, wo es das Verhalten des realen Agenten verbessert.
Im breiteren Lebenszyklus unterstützt dieses Framework eine kontinuierliche Verbesserung:
- Entwerfen und erstellen Sie den Agent.
- Bewerten sie das Verhalten mit strukturierten Tests.
- Verwenden Sie diese Artikel, um Probleme zu triagen und zu beheben.
- Bewerten Sie den Agenten neu und iterieren Sie den Prozess, sobald sich der Agent weiterentwickelt.
Durch die Behandlung von Auswertungsergebnissen als umsetzbare Signale bewegen Sie sich effizient von experimentierbaren und wiederholbaren, produktionsfähigen Agenten.
Frameworkstruktur
Das Framework ist in vier Ebenen der Triage organisiert. Jede Ebene entspricht einer tieferen Analyseebene, von der Interpretation von Bewertungen bis hin zur Diagnose von Ursachen und Identifizieren von systemischen Mustern.
- Ebene 1: Interpretieren von Bewertungsergebnissen und Bewerten der Bereitschaft: Was bedeuten die Ergebnisse, und ist der Agent bereit für die Bereitstellung?
- Ebene 2: Triagefehler: Warum hat das fehlschlagen und wer muss handeln?
- Ebene 3: Zuordnen von Fehlermustern zu Korrekturstrategien: Was sollten speziell geändert werden?
- Ebene 4: Analysieren Sie Muster und verbessern Sie: Welche systemischen Probleme zeigen die Fehler auf?
Das Framework enthält auch praktische Beispiele , die zeigen, wie das Framework am Ende angewendet wird, und eine Fehlerprotokollvorlage , mit der Sie Ergebnisse und Entscheidungen nachverfolgen können.
Die Kurzübersicht enthält eine komprimierte Version des Triage- und Wartungsprozesses für die Verwendung während aktiver Sitzungen.
Ursachentypen
Auswertungsfehler werden einem von drei Grundursachentypen zugeordnet, je nachdem, wer der Besitzer ist oder wer handeln muss.
| Ursachetyp der Stammursache | Owner | Beschreibung |
|---|---|---|
| Problem bei der Einrichtung der Evaluierung | Bewertungsautor | Der Testfall, die erwartete Antwort oder der Grader sind falsch. Möglicherweise funktioniert der Agent ordnungsgemäß. |
| Problem mit der Agentkonfiguration | Der Agent-Generator | Der Agent erzeugt eine falsche Antwort, die durch Konfigurationsänderungen behoben werden kann. |
| Problem mit Plattformbeschränkung | Plattformteam | Das Plattformverhalten verursacht das Problem und kann nicht durch die Konfiguration behoben werden. |
Designprinzipien
Designprinzipien führen dazu, wie Sie das Framework in der Praxis anwenden, um eine effektive Triage und Wartung zu gewährleisten.
| Prinzip | Was dies in der Praxis bedeutet |
|---|---|
| Ausgehend von Auswertungsergebnissen | Beginnen Sie mit tatsächlichen Passraten und Fehlerhaften Testfällen, nicht mit abstrakten Annahmen. |
| Beseitigen Sie zuerst fehlerhafte Arbeit | Überprüfen Sie die Evaluierungseinrichtung, bevor Sie den Agent untersuchen, um verschwendeten Aufwand zu vermeiden. |
| Ursache → Besitzer → Aktion | Stellen Sie sicher, dass jeder Diagnosepfad einen eindeutigen Besitzer und eine konkrete Aktion identifiziert. |
| Überprüfen der Klassifizierung | Führen Sie Auswertungen nach der Behebung erneut aus. Wenn Fehler weiterhin bestehen, führen Sie eine erneute Triagierung durch. |
| Erwarten Sie komplexe Ursachen | Bestätigen Sie, dass ein einzelner Fehler mehrere Ursachen haben kann. |
| Variabilität berücksichtigen | Berücksichtigen Sie die Modell- und Gradervariabilität. Führen Sie Auswertungen erneut aus, um Ergebnisse zu bestätigen. |
Architektur des Evaluierungssatzes
Die Wirksamkeit der Triage hängt davon ab, wie Evaluierungssätze strukturiert sind.
- Gut strukturierte Sätze (organisiert nach Qualitätssignal oder Szenario) erzeugen interpretierbare Ergebnisse und effektive Triage.
- Schlecht strukturierte Mengen (gemischte Signale, unklare Grenzen) erzeugen laute Ergebnisse und mehrdeutige Diagnosen.
Wenn die Bewertungen schwierig zu interpretieren sind, sollten Sie in Erwägung ziehen, die Bewertungssätze umzustellen, bevor Sie einzelne Fehler priorisieren.
Bevor Sie anfangen
Für jeden Testfall müssen Auswertungsergebnisse verfügbar sein, einschließlich eines bestandenen oder fehlgeschlagenen Ergebnisses. Wenn Sie noch keine Auswertungen durchgeführt haben, folgen Sie den Schritten in Automatisiertes Testen mit Agentenbewertung und lesen Sie Design und Betrieb der Agentenbewertung für weitere Anleitungen.
Nächster Schritt
Interpretieren Sie zunächst Die Auswertungsergebnisse, um die Bereitschaft zu ermitteln.