Über die Agentenbewertung

Da KI-Agenten entscheidende Rollen in Geschäftsprozessen übernehmen, wird der Bedarf an zuverlässigem, wiederholbarem Testen unerlässlich. Agentenbewertung ermöglicht es Ihnen, Tests zu erstellen , die reale Szenarien für Ihren Agenten simulieren. Diese Tests decken mehr Fragen und Unterhaltungen schneller ab als manuelle Falltests. Anschließend können Sie die Genauigkeit, Relevanz und Qualität der Antworten ihrer Agenten basierend auf den Informationen messen, auf die der Agent zugreifen kann. Mit den Ergebnissen aus dem Testset können Sie das Verhalten Ihres Maklers optimieren und bestätigen, dass Ihr Makler Ihre Geschäfts- und Qualitätsanforderungen erfüllt.

Warum automatisierte Tests verwenden?

Die Agentenbewertung bietet automatisierte, strukturierte Tests. Es hilft, Probleme frühzeitig zu erkennen, verringert das Risiko schlechter Antworten und sorgt für die Qualität, während sich der Agent weiterentwickelt. Dieser Prozess bringt eine automatisierte, wiederholbare Form der Qualitätssicherung in die Agententests. Es stellt sicher, dass der Agent die Genauigkeits- und Zuverlässigkeitsstandards Ihres Unternehmens erfüllt und Transparenz in der Leistung bietet. Es hat andere Stärken als das Testen über den Testchat.

Sie führen Auswertungen aus und sehen Ergebnisse mithilfe der Copilot Studio Schnittstelle, über Power Platform REST-APIs oder über das Hinzufügen von Aktionen in Tools, Flows oder Power Automate.

Die Agentenbewertung misst Korrektheit und Leistung, nicht KI-Ethik oder Sicherheitsprobleme. Ein Agent kann alle Bewertungstests bestehen, aber dennoch zum Beispiel eine unangemessene Antwort auf eine Frage liefern. Kunden sollten weiterhin verantwortungsvolle KI-Rezensionen und Inhaltssicherheitsfilter verwenden; Bewertungen ersetzen diese Rezensionen und Filter nicht.

Einschränkungen der Government Community Cloud

Die Agentenbewertung in Government Community Cloud (GCC)-Umgebungen hat folgende Einschränkungen:

Hersteller können kein Benutzerprofil zu ihren Testsätzen hinzufügen. Hersteller können jedoch weiterhin Bewertungen ohne Benutzerprofil durchführen.
Hersteller können die Ähnlichkeitstestmethode für Bewertungen nicht verwenden. Alle anderen Testmethoden sind verfügbar.

Wie die Agentenbewertung funktioniert

Copilot Studio verwendet für jede Agentauswertung einen test-Fall. Ein Testfall ist eine einzelne Interaktion, die simuliert, wie ein Benutzer mit Ihrem Agent interagiert. Die Interaktion kann eine einzelne Frage oder eine ganze Unterhaltung sein.

Ein Testfall kann auch die Antwort enthalten, die Sie von Ihrem Agenten erwarten. Beispiele:

Die Frage: Wie sind Ihre Geschäftszeiten?
Die erwartete Antwort: Wir haben von Montag bis Freitag von 9 bis 17 Uhr geöffnet.

Durch die Nutzung der Agentenbewertung können Sie eine Gruppe von Testfällen generieren, importieren oder manuell schreiben . Diese Gruppe von Testfällen wird als Testset bezeichnet. Ein Testsatz ermöglicht es Ihnen:

Führe mehrere Testfälle durch, die eine breite Palette von Fähigkeiten gleichzeitig abdecken, anstatt deinem Agenten eine Frage nach der anderen zu stellen.
Analysieren Sie die Leistung Ihres Agenten mit einem leicht verdaulichen Gesamtscore und zoomen Sie auch auf einzelne Testfälle ein.
Testen Sie Änderungen an Ihren Agenten mit demselben Testset, sodass Sie einen objektiven Standard haben, um Leistungsänderungen zu messen und zu vergleichen.
Erstellen Sie schnell neue Testsätze oder passen Sie bestehende an, um sich ändernde Fähigkeiten oder Anforderungen der Agenten abzudecken.

Jedes Testset kann Ihren Agenten mit mehreren Testmethoden gleichzeitig bewerten.

Sie können auch ein Benutzerprofil auswählen, das als stimulierter Benutzer fungiert. Der Agent kann so konfiguriert sein, dass er auf unterschiedliche Weise auf verschiedene Nutzer reagiert oder auf unterschiedliche Weise Zugriff auf Ressourcen ermöglicht.

Wenn Sie einen Testsatz auswählen und eine Agentauswertung ausführen sendet Copilot Studio die Fragen in den Testfällen, zeichnet die Antworten des Agents auf, vergleicht diese Antworten mit erwarteten Antworten oder einem Qualitätsstandard und weist jedem Testfall eine Bewertung zu. Sie können außerdem die Details, das Transkript und die Aktivitätskarte für jeden Testfall sehen und welche Ressourcen Ihr Agent zur Erstellung der Antwort verwendet hat.

Erstellen einer umfassenden Evaluierungsstrategie

Bevor Sie Auswertungen ausführen, definieren Sie, wie der Erfolg für Ihren Agent aussieht, und entscheiden Sie, welche Szenarien für Ihre Geschäftsergebnisse am wichtigsten sind. Eine klare Strategie hilft Ihnen bei der Auswahl der richtigen Testmethoden, bei der Priorisierung von Testfällen mit hohem Einfluss und beim Interpretieren von Ergebnissen mit dem richtigen Kontext.

Verwenden Sie Architekturlösungen für Agenten: Evaluierungsrahmen, um Geschäftsziele mit messbaren Bewertungsdimensionen und Bewertungsansätzen zu verknüpfen.
Verwenden Sie Entwurf und Umsetzung der Agentauswertung, um einen wiederholbaren Evaluierungsprozess zu erstellen, der fortlaufende Qualitätsverbesserungen unterstützt.

Integrieren von Auswertungen in automatisierte Abläufe

Die Agent-Auswertung unterstützt die Automatisierung, sodass Die Entscheidungsträger Auswertungen ohne manuelle Eingriffe ausführen können. Mithilfe von REST-APIs oder Power Platform-Connectors können Sie programmgesteuert Auswertungsläufe auslösen und Tests in automatisierte Workflows integrieren, z. B. fortlaufende Integration und kontinuierliche Bereitstellung (CI/CD)-Pipelines. Mit diesem Ansatz können Sie Testsätze im Maßstab ausführen und das Verhalten des Agents überprüfen, wenn Änderungen eingeführt werden, ohne dass die manuelle Ausführung in Copilot Studio erforderlich ist.

Testchat versus Agentenbewertung

Jede Testmethode liefert Ihnen unterschiedliche Einblicke in die Eigenschaften und das Verhalten Ihres Agenten:

Testchat:

Er nimmt jeweils eine Frage entgegen und beantwortet sie. Es ist schwer, dieselben Tests mehrfach zu wiederholen.
Ermöglicht es, eine vollständige Sitzung mit mehreren Nachrichten zu testen.
Ermöglicht es Ihnen, als Nutzer mit Ihrem Agenten über eine Chat-Oberfläche zu interagieren.

Agentenbewertung:

Kann mehrere Testfälle gleichzeitig erstellen und ausführen, indem sie einen Testsatz verwenden. Sie können Tests wiederholen, indem Sie mit demselben Testsatz testen.
Kann eine Frage und eine Antwort pro Testfall oder eine Unterhaltung pro Testfall testen. Sie haben jedoch weniger Kontrolle über die Unterhaltungen als bei der Verwendung des Testchats.
Wähle verschiedene Benutzerprofile, um verschiedene Nutzer zu simulieren, ohne die Interaktionen selbst abschließen zu müssen.

Wenn Sie einen Agenten testen, nutzen Sie sowohl den Testchat als auch die Agentenbewertung, um ein vollständiges Bild Ihres Agenten zu bekommen.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-01