Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]
Beim Erstellen von Testsätzen können Sie verschiedene Testmethoden wählen, um die Antworten Ihres Agenten zu bewerten: Textübereinstimmung, Ähnlichkeit und Qualität. Jede Testmethode hat ihre eigenen Stärken und eignet sich für verschiedene Arten von Auswertungen.
Testmethoden für Textübereinstimmung
Testmethoden für Textvergleiche vergleichen die Antworten des Agents mit erwarteten Antworten, die Sie im Testsatz definieren. Es gibt zwei Übereinstimmungstests:
Genaue Übereinstimmung überprüft, ob die Antwort des Agents exakt der erwarteten Antwort im Test entspricht: Zeichen für Zeichen, Wort für Wort. Wenn es gleich ist, wird es übergeben. Wenn etwas anders ist, schlägt es fehl. Genaue Übereinstimmung ist nützlich für kurze, präzise Antworten wie Zahlen, Codes oder feste Ausdrücke. Es passt nicht zu Antworten, die Personen auf mehrere richtige Weise ausdrücken können.
Keyword Match prüft, ob die Antwort des Agenten einige der Wörter oder Phrasen aus der von Ihnen definierten erwarteten Antwort enthält. Wenn dies der Fall ist, wird sie übergeben. Wenn dies nicht der Fehler ist, schlägt sie fehl. Keyword Match ist nützlich, wenn eine Antwort auf unterschiedliche korrekte Weise formuliert werden kann, Schlüsselbegriffe oder Ideen aber dennoch in die Antwort aufgenommen werden müssen.
Ähnlichkeitstestmethoden
Die Ähnlichkeitstestmethode vergleicht die Ähnlichkeit der Antworten des Agenten mit den erwarteten Antworten, die Sie in Ihrem Testset definieren. Es ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.
Es verwendet ein Kosinus-Ähnlichkeitsmaß, um zu beurteilen, wie ähnlich die Antwort des Agenten dem Wortlaut und der Bedeutung der erwarteten Antwort ist und eine Bewertung bestimmt. Die Punktzahl liegt zwischen 0 und 1, wobei 1 die Antwort genau übereinstimmt und 0 darauf hinweist, dass dies nicht der Punkt ist. Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt.
Qualitätsprüfungsmethoden
Qualitätsprüfungsmethoden helfen Ihnen bei der Entscheidung, ob die Antworten Ihres Agents Ihren Standards entsprechen. Durch diesen Ansatz wird sichergestellt, dass die Ergebnisse zuverlässig und einfach zu erklären sind.
Diese Methoden verwenden ein großes Sprachmodell (LLM), um zu beurteilen, wie effektiv ein Agent Benutzerfragen beantwortet. Sie sind besonders hilfreich, wenn keine genaue Antwort erwartet wird und eine flexible und skalierbare Möglichkeit zum Auswerten von Antworten basierend auf den abgerufenen Dokumenten und dem Unterhaltungsfluss bietet.
Zu den Qualitätsprüfungsmethoden gehören zwei Testmethoden:
Allgemeine Qualität wertet die Antworten des Agent aus. Es verwendet diese Schlüsselkriterien und wendet eine konsistente Eingabe an, um die Bewertung zu steuern:
Relevanz: Inwieweit die Antwort des Agents die Frage behandelt. Bleibt beispielsweise die Antwort des Agenten auf dem Thema und beantwortet die Frage direkt?
Fundierung: Inwieweit die Reaktion des Agents auf dem bereitgestellten Kontext basiert. Verweist beispielsweise der Antwortverweis des Agents auf die im Kontext angegebenen Informationen oder stützt er darauf ab, anstatt nicht zusammenhängende oder nicht unterstützte Informationen einzuführen?
Vollständigkeit: Inwieweit die Antwort des Agents alle erforderlichen Informationen bereitstellt. Deckt die Reaktion des Agents beispielsweise alle Aspekte der Frage ab und liefert ausreichende Details?
Enthaltung: Gibt an, ob der Agent versucht hat, die Frage zu beantworten.
Um als qualitativ hochwertig zu gelten, muss eine Antwort all diese wichtigen Kriterien erfüllen. Wenn ein Kriterium nicht erfüllt ist, wird die Antwort zur Verbesserung markiert. Diese Bewertungsmethode stellt sicher, dass nur Antworten, die sowohl vollständig als auch gut unterstützt werden, Topmarkierungen erhalten. Im Gegensatz dazu erhalten Antworten, die unvollständig sind oder keine unterstützenden Nachweise enthalten, niedrigere Bewertungen.
Vergleich der Bedeutung wertet aus, wie gut die Antwort des Agents die beabsichtigte Bedeutung der erwarteten Antwort widerspiegelt. Anstatt sich auf die genaue Formulierung zu konzentrieren, verwendet es die Ähnlichkeit der Absicht, das heißt, es vergleicht die Ideen und Bedeutungen hinter den Worten, um zu beurteilen, wie eng die Antwort mit den Erwartungen übereinstimmt.
Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt. Die Standard-Bestehensquote liegt bei 50. Die Testmethode für den Bedeutungsvergleich ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.
Schwellenwerte und Passraten
Der Erfolg eines Testfalls hängt von der ausgewählten Testmethode und dem Schwellenwert ab, den Sie für das Bestehen von Ergebnissen festlegen.
Jede Testmethode, außer der exakten Übereinstimmung liefert eine numerische Punktzahl basierend auf einer Reihe von Bewertungskriterien. Dieser Wert spiegelt wider, wie gut die Antwort des Agenten diese Kriterien erfüllt. Der Schwellenwert ist das Grenz-Score, das Bestehen von Nichtbestehen trennt. Sie können die übergebenen Bewertungen für Ähnlichkeit festlegen und Bedeutungstestfälle vergleichen.
Exakte Übereinstimmung ist eine strenge Testmethode, die keine numerische Punktzahl liefert. Die Antwort muss genau übereinstimmen, um zu bestehen. Indem Sie den Schwellenwert für einen Testfall auswählen, entscheiden Sie, wie streng oder nachsichtig die Auswertung ist. Jede Testmethode wertet die Antwort des Agents anders aus, daher ist es wichtig, die Methode auszuwählen, die Ihren Auswertungskriterien am besten entspricht.