Freigeben über


Automatisieren von Tests mit Agentenbewertung

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

Da KI-Agenten entscheidende Rollen in Geschäftsprozessen übernehmen, wird der Bedarf an zuverlässigem, wiederholbarem Testen unerlässlich. Agentenbewertung ermöglicht es Ihnen, Tests zu erstellen , die reale Szenarien für Ihren Agenten simulieren. Diese Tests behandeln mehr Fragen schneller als manuelle, fallbezogene Tests. Anschließend können Sie die Genauigkeit, Relevanz und Qualität der Antworten auf die Fragen des Agenten messen , basierend auf den Informationen, auf die der Agent zugreifen kann. Mit den Ergebnissen aus dem Testset können Sie das Verhalten Ihres Maklers optimieren und bestätigen, dass Ihr Makler Ihre Geschäfts- und Qualitätsanforderungen erfüllt.

Von Bedeutung

Dieser Artikel enthält die Vorschaudokumentation von Microsoft Copilot Studio und kann geändert werden.

Vorschaufeatures sind nicht für die Produktionsverwendung vorgesehen und verfügen möglicherweise über eingeschränkte Funktionen. Diese Features sind vor einer offiziellen Version verfügbar, damit Sie frühzeitig Zugriff erhalten und Feedback geben können.

Wenn Sie einen produktionsfähigen Agent erstellen, lesen Sie die Übersicht über Microsoft Copilot Studio.

Warum automatisierte Tests verwenden?

Die Agentenbewertung bietet automatisierte, strukturierte Tests. Es hilft, Probleme frühzeitig zu erkennen, verringert das Risiko schlechter Antworten und sorgt für die Qualität, während sich der Agent weiterentwickelt. Dieser Prozess bringt eine automatisierte, wiederholbare Form der Qualitätssicherung in die Agententests. Es stellt sicher, dass der Makler die Genauigkeits- und Zuverlässigkeitsstandards Ihres Unternehmens erfüllt und sorgt für Transparenz darüber, wie es arbeitet. Es hat andere Stärken als das Testen über den Testchat.

Die Agentenbewertung misst Korrektheit und Leistung, nicht KI-Ethik oder Sicherheitsprobleme. Ein Agent kann alle Bewertungstests bestehen, aber dennoch zum Beispiel eine unangemessene Antwort auf eine Frage liefern. Kunden sollten weiterhin verantwortungsvolle KI-Bewertungen und Filter zur Inhaltssicherheit verwenden; Bewertungen ersetzen diese Bewertungen und Filter nicht.

Wie die Agentenbewertung funktioniert

Copilot Studio verwendet für jede Agentenbewertung einen Testfall . Ein Testfall ist eine einzelne Nachricht oder Frage, die simuliert, was ein Nutzer Ihren Agenten fragen würde. Ein Testfall kann auch die Antwort enthalten, mit der Sie erwarten , dass Ihr Makler antwortet. Beispiel:

  • Die Frage: Wie sind Ihre Geschäftszeiten?

  • Die erwartete Antwort: Wir haben von Montag bis Freitag von 9 bis 17 Uhr geöffnet.

Durch die Nutzung der Agentenbewertung können Sie eine Gruppe von Testfällen generieren, importieren oder manuell schreiben . Diese Gruppe von Testfällen wird als Testset bezeichnet. Ein Testsatz ermöglicht es Ihnen:

  • Führe mehrere Testfälle durch, die eine breite Palette von Fähigkeiten gleichzeitig abdecken, anstatt deinem Agenten eine Frage nach der anderen zu stellen.

  • Analysieren Sie die Leistung Ihres Agenten mit einem leicht verdaulichen Gesamtscore und zoomen Sie auch auf einzelne Testfälle ein.

  • Testen Sie Änderungen an Ihren Agenten mit demselben Testset, sodass Sie einen objektiven Standard haben, um Leistungsänderungen zu messen und zu vergleichen.

  • Erstellen Sie schnell neue Testsätze oder passen Sie bestehende an, um sich ändernde Fähigkeiten oder Anforderungen der Agenten abzudecken.

Das Testset enthält auch die Testmethoden , die du verwenden möchtest. Sie können die Leistung Ihres Maklers anhand folgender Leistungen messen:

Sie können auch ein Benutzerprofil auswählen, das als Nutzer fungiert, der die Fragen sendet. Der Agent kann so konfiguriert sein, dass er auf unterschiedliche Weise auf verschiedene Nutzer reagiert oder auf unterschiedliche Weise Zugriff auf Ressourcen ermöglicht.

Wenn Sie einen Testsatz auswählen und eine Agentenbewertung durchführen, sendet Copilot Studio die Fragen in den Testfällen, zeichnet die Antworten des Agenten auf, vergleicht diese mit erwarteten Antworten oder einem Qualitätsstandard und vergibt jedem Testfall eine Punktzahl. Sie können außerdem die Details, das Transkript und die Aktivitätskarte für jeden Testfall sehen und welche Ressourcen Ihr Agent zur Erstellung der Antwort verwendet hat.

Testchat versus Agentenbewertung

Jede Testmethode liefert Ihnen unterschiedliche Einblicke in die Eigenschaften und das Verhalten Ihres Agenten:

Testchat:

  • Erhält und beantwortet jeweils eine Frage. Es ist schwer, dieselben Tests mehrfach zu wiederholen.

  • Ermöglicht es, eine vollständige Sitzung mit mehreren Nachrichten zu testen.

  • Ermöglicht es Ihnen, als Nutzer mit Ihrem Agenten über eine Chat-Oberfläche zu interagieren.

Agentenbewertung:

  • Man kann mehrere Testfälle gleichzeitig erstellen und ausführen. Du kannst Tests wiederholen, indem du denselben Testsatz verwendest.

  • Man kann pro Testfall nur eine Frage und eine Antwort testen. Es prüft keine vollständige Gesprächssitzung.

  • Wähle verschiedene Benutzerprofile, um verschiedene Nutzer zu simulieren, ohne die Interaktionen selbst abschließen zu müssen.

Wenn Sie einen Agenten testen, nutzen Sie sowohl den Testchat als auch die Agentenbewertung, um ein vollständiges Bild Ihres Agenten zu bekommen.