Teilen über


Wählen Sie Bewertungsmethoden

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

Wenn Sie Testsätze erstellen, wählen Sie aus verschiedenen Testmethoden, um die Antworten Ihres Agenten zu bewerten. Jede Testmethode hat ihre eigenen Stärken und eignet sich für unterschiedliche Arten von Bewertungen.

Prüfmethode Maßnahmen Bewertung Configurations
Allgemeine Qualität Wie gut ist die Antwort eines Testfalls basierend auf spezifischen Eigenschaften Bewertet von 100% Nichts
Bedeutung vergleichen Wie gut die Bedeutung der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt Bewertet von 100% Bestandenes Ergebnis, erwartete Antwort
Fähigkeitsnutzung Ob der Testfall die erwarteten Ressourcen verwendet hat Bestanden/Nicht bestanden Erwartete Fähigkeiten
Schlüsselwort-Übereinstimmung Ob der Testfall alle oder einige der erwarteten Schlüsselbegriffe oder Phrasen verwendet hat Bestanden/Nicht bestanden Erwartete Schlüsselwörter oder -phrasen
Ähnlichkeit mit Text Wie gut der Text der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt Bewertet von 100% Bestandenes Ergebnis, erwartete Antwort
Genaue Übereinstimmung Ob die Antwort des Testfalls genau mit der erwarteten Antwort übereinstimmt Bestanden/Nicht bestanden Erwartete Antwort

Um Testmethoden zu einem Testsatz hinzuzufügen:

  1. Wenn Sie ein Testset erstellen oder bearbeiten , wählen Sie Testmethode hinzufügen.
  2. Wähle alle Methoden aus, mit denen du testen möchtest, und wähle dann OK. Du kannst mehrere Methoden hinzufügen.
  3. Einige Methoden erfordern eine Bestehensquote. Die Bestehensnote bestimmt, welche Punktzahl zu einem Bestehen oder Nichtbestehen führt. Setzen Sie die Punktzahl und wählen Sie dann OK.
  4. Einige Testmethoden erfordern zusätzliche Kriterien.
  5. Wählen Sie Speichern , um Ihre Änderungen im Testset zu speichern.

Wählen Sie eine bestehende Testmethode aus, um die Kriterien dieser Methode zu bearbeiten, oder löschen Sie diese Methode.

Allgemeine Qualität

Die allgemeine Qualität hilft Ihnen zu entscheiden, ob die Antworten Ihres Maklers Ihren Standards entsprechen. Es verwendet ein Sprachmodell, um zu bewerten, wie effektiv ein Agent Nutzerfragen beantwortet.

Die allgemeine Qualität ist besonders hilfreich, wenn keine genaue Antwort erwartet wird. Es bietet eine flexible und skalierbare Möglichkeit, Antworten basierend auf den abgerufenen Dokumenten und dem Gesprächsfluss zu bewerten.

Es verwendet diese Schlüsselkriterien und wendet eine konsistente Eingabe an, um die Bewertung zu steuern:

  • Relevanz: Inwieweit die Antwort des Agents die Frage behandelt. Bleibt beispielsweise die Antwort des Agenten auf dem Thema und beantwortet die Frage direkt?

  • Fundierung: Inwieweit die Reaktion des Agents auf dem bereitgestellten Kontext basiert. Verweist beispielsweise der Antwortverweis des Agents auf die im Kontext angegebenen Informationen oder stützt er darauf ab, anstatt nicht zusammenhängende oder nicht unterstützte Informationen einzuführen?

  • Vollständigkeit: Inwieweit die Antwort des Agents alle erforderlichen Informationen bereitstellt. Deckt die Reaktion des Agents beispielsweise alle Aspekte der Frage ab und liefert ausreichende Details?

  • Enthaltung: Gibt an, ob der Agent versucht hat, die Frage zu beantworten.

Um als qualitativ hochwertig zu gelten, muss eine Antwort all diese wichtigen Kriterien erfüllen. Wenn ein Kriterium nicht erfüllt ist, wird die Antwort zur Verbesserung markiert. Diese Bewertungsmethode stellt sicher, dass nur Antworten, die sowohl vollständig als auch gut unterstützt werden, Topmarkierungen erhalten. Im Gegensatz dazu erhalten Antworten, die unvollständig sind oder keine unterstützenden Nachweise enthalten, niedrigere Bewertungen.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie allgemeine Qualität. Alle Testsätze beginnen standardmäßig mit dieser Methode.

Du musst keine erwarteten Antworten in Testfälle hinzufügen, um eine allgemeine Qualitätsbewertung abzuschließen.

Bedeutung vergleichen

Vergleich der Bedeutung wertet aus, wie gut die Antwort des Agents die beabsichtigte Bedeutung der erwarteten Antwort widerspiegelt. Anstatt sich auf die genaue Formulierung zu konzentrieren, verwendet es die Ähnlichkeit der Absicht, das heißt, es vergleicht die Ideen und Bedeutungen hinter den Worten, um zu beurteilen, wie eng die Antwort mit den Erwartungen übereinstimmt.

Wie bei der allgemeinen Qualität ist Compare Meaning besonders hilfreich, wenn keine genaue Antwort erwartet wird. Es bietet eine flexible und skalierbare Möglichkeit, Antworten basierend auf den abgerufenen Dokumenten und dem Gesprächsfluss zu bewerten.

Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt. Die Standard-Bestehensquote liegt bei 50. Die Testmethode für den Bedeutungsvergleich ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

  1. Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Bedeutung vergleichen.

  2. Setzen Sie für diese Methode die Bestehenspunktzahl.

  3. Füge die erwarteten Antworten hinzu. Jeder Testfall ohne solche Methode erzeugt ein ungültiges Ergebnis für diese Testmethode.

    1. Wählen Sie einen Testfall aus.
    2. Füge die Antwort hinzu, die du erwartest.
    3. Wählen Sie Anwenden , um die erwartete Antwort zu speichern.
    4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Fähigkeitsnutzung

Capability Use testet, ob der Agent bestimmte Werkzeuge oder Themen verwendet hat, um eine Antwort zu generieren. Wenn doch, wird es verabschiedet. Wenn dies nicht der Fehler ist, schlägt sie fehl.

Du kannst auswählen, ob ein Pass eines der Werkzeuge oder Themen oder alle erfordert. Die Wahl von Any bedeutet, dass, wenn der Agent mindestens einen aufruft, der Testfall besteht. Alle auswählen bedeutet, dass alle erwarteten Werkzeuge oder Themen übereinstimmen müssen, damit ein Testfall besteht.

  1. Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Capability Use aus.

  2. Wählen Sie aus, ob ein Testfall beliebige oder alle Werkzeuge oder Themen benötigt, um übereinzustimmen.

  3. Füge die erwarteten Werkzeuge oder Themen hinzu. Jeder Testfall ohne solche Methode erzeugt ein ungültiges Ergebnis für diese Testmethode.

    1. Wählen Sie einen Testfall aus.
    2. Wählen Sie die Funktionen aus, die Sie von der Antwort dieses Falls erwarten.
    3. Wählen Sie "OK" aus.
    4. Wählen Sie Übernehmen aus, um Änderungen zu speichern.
    5. Wiederhole das für alle Testfälle, die du für die Nutzung der Fähigkeiten testen möchtest.
  4. Setzen Sie für diese Methode die Bestehenspunktzahl.

  5. Füge die erwarteten Antworten hinzu. Jeder Testfall ohne solche Methode erzeugt ein ungültiges Ergebnis für diese Testmethode.

    1. Wählen Sie einen Testfall aus.
    2. Fügen Sie die Werkzeuge oder Themen hinzu, die Sie erwarten.
    3. Wählen Sie "Übernehmen" aus, um zu speichern.
    4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Schlüsselwort-Übereinstimmung

Keyword Match prüft, ob die Antwort des Agenten einige oder alle Wörter oder Phrasen der von Ihnen definierten erwarteten Antwort enthält. Wenn dies der Fall ist, wird sie übergeben. Wenn dies nicht der Fehler ist, schlägt sie fehl.

Du kannst auswählen, ob ein Pass eines der Schlüsselwörter oder alle davon benötigt. Die Wahl von Any bedeutet, dass der Testfall besteht, wenn mindestens ein Wort oder eine Phrase übereinstimmt. Alle zu wählen bedeutet, dass alle erwarteten Wörter oder Phrasen übereinstimmen müssen, damit ein Testfall besteht.

Keyword Match ist nützlich, wenn eine Antwort auf unterschiedliche korrekte Weise formuliert werden kann, Schlüsselbegriffe oder Ideen aber dennoch in die Antwort aufgenommen werden müssen.

  1. Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Keyword-Match.

  2. Wähle aus, ob ein Testfall eine beliebige oderalle Schlüsselwörter benötigt, die übereinstimmen.

  3. Füge die erwarteten Schlüsselwörter hinzu. Jeder Testfall ohne solche Methode erzeugt ein ungültiges Ergebnis für diese Testmethode.

    1. Wählen Sie einen Testfall aus.
    2. Füge ein Schlüsselwort oder eine Phrase hinzu, von der du erwartest, dass die Antwort dieses Falls enthält.
    3. Wählen Sie aus, + um weitere Schlüsselwörter oder Phrasen hinzuzufügen. Entfernen auswählen
    4. Wählen Sie Apply, um die erwarteten Schlüsselwörter zu speichern.
    5. Wiederhole das für alle Testfälle, die du auf Keyword-Matching testen möchtest.

Ähnlichkeit mit Text

Die Ähnlichkeitstestmethode vergleicht die Ähnlichkeit der Antworten des Agenten mit den erwarteten Antworten, die Sie in Ihrem Testset definieren. Es ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

Es verwendet ein Kosinus-Ähnlichkeitsmaß, um zu beurteilen, wie ähnlich die Antwort des Agenten dem Wortlaut und der Bedeutung der erwarteten Antwort ist und eine Bewertung bestimmt. Die Punktzahl liegt zwischen 0 und 1, wobei 1 die Antwort genau übereinstimmt und 0 darauf hinweist, dass dies nicht der Punkt ist. Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt.

  1. Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Textähnlichkeit.

  2. Setzen Sie für diese Methode die Bestehenspunktzahl.

  3. Füge die erwarteten Antworten hinzu. Jeder Testfall ohne solche Methode erzeugt ein ungültiges Ergebnis für diese Testmethode.

    1. Wählen Sie einen Testfall aus.
    2. Füge die Antwort hinzu, die du erwartest.
    3. Wählen Sie Anwenden , um die erwartete Antwort zu speichern.
    4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Genaue Übereinstimmung

Genaue Übereinstimmung überprüft, ob die Antwort des Agents exakt der erwarteten Antwort im Test entspricht: Zeichen für Zeichen, Wort für Wort. Wenn es gleich ist, besteht es. Wenn etwas anders ist, schlägt es fehl. Genaue Übereinstimmung ist nützlich für kurze, präzise Antworten wie Zahlen, Codes oder feste Ausdrücke. Es passt nicht zu Antworten, die Personen auf mehrere richtige Weise ausdrücken können.

  1. Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Exakte Übereinstimmung.

  2. Füge die erwarteten Antworten hinzu. Jeder Testfall ohne solche Methode erzeugt ein ungültiges Ergebnis für diese Testmethode.

    1. Wählen Sie einen Testfall aus.
    2. Füge die Antwort hinzu, die du erwartest.
    3. Wählen Sie Anwenden , um die erwartete Antwort zu speichern.
    4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.