Wählen Sie Bewertungsmethoden

Wenn Sie Testsätze erstellen, wählen Sie aus verschiedenen Testmethoden, um die Antworten Ihres Agenten zu bewerten. Jede Testmethode hat ihre eigenen Stärken und eignet sich für unterschiedliche Arten von Bewertungen.

Prüfmethode	Kennzahlen	Testsatztyp	Bewertung	Konfigurationen
Allgemeine Qualität	Wie gut sind die Antwort(en) eines Testfalls auf der Grundlage bestimmter Eigenschaften	Einzelne Antwort oder Unterhaltung	Bewertung von insgesamt 100 %	Nichts
Bedeutung vergleichen	Wie gut die Bedeutung der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt	Einzelne Antwort	Bewertung von insgesamt 100 %	Bestehensgrenze, erwartete Antwort
Werkzeuggebrauch	Gibt an, ob der Testfall alle oder beliebige der erwarteten Ressourcen verwendet hat.	Einzelne Antwort	Bestanden/Nicht bestanden	Erwartete Fähigkeiten
Schlüsselwort-Übereinstimmung	Ob der Testfall alle oder einige der erwarteten Schlüsselbegriffe oder Phrasen verwendet hat	Einzelne Antwort oder Unterhaltung	Bestanden/Nicht bestanden	Erwartete Schlüsselwörter oder -phrasen
Textähnlichkeit	Wie gut der Text der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt	Einzelne Antwort	Bewertung von insgesamt 100 %	Bestehensgrenze, erwartete Antwort
Genaue Übereinstimmung	Ob die Antwort des Testfalls genau mit der erwarteten Antwort übereinstimmt	Einzelne Antwort	Bestanden/Nicht bestanden	Erwartete Antwort
Benutzerdefiniert	Ob die Antwort des Testfalls Ihre definierten Kriterien oder Erwartungen erfüllt.	Einzelne Antwort oder Unterhaltung	Bestanden/Nicht bestanden (erfüllt die definierten Labelkriterien)	Name, Auswertungsanweisungen, Bezeichnungen

Hinzufügen einer Testmethode

Wenn Sie ein Testset erstellen oder bearbeiten , wählen Sie Testmethode hinzufügen.
Wähle alle Methoden aus, mit denen du testen möchtest, und wähle dann OK. Du kannst mehrere Methoden hinzufügen.
1. Einige Methoden erfordern eine Mindestpunktzahl zum Bestehen. Die Bewertung für das Bestehen bestimmt, welche Punktzahl zu einem Bestehen oder Nichtbestehen führt. Setzen Sie die Punktzahl und wählen Sie dann OK.
2. Einige Testmethoden erfordern weitere Kriterien.
Wählen Sie Speichern , um Ihre Änderungen im Testset zu speichern.

Wählen Sie eine bestehende Testmethode aus, um die Kriterien dieser Methode zu bearbeiten, oder löschen Sie diese Methode.

Allgemeine Qualität

Verfügbar für einzelne Antwort- und Unterhaltungstestsätze. Die allgemeine Qualität hilft Ihnen zu entscheiden, ob die Antworten Ihres Maklers Ihren Standards entsprechen. Es verwendet ein großes Sprachmodell (LLM), um zu beurteilen, wie effektiv ein Agent Benutzerfragen beantwortet.

Die allgemeine Qualität ist besonders hilfreich, wenn keine genaue Antwort erwartet wird. Es bietet eine flexible und skalierbare Möglichkeit, Antworten basierend auf den abgerufenen Dokumenten und dem Gesprächsfluss zu bewerten.

Es verwendet diese Schlüsselkriterien und wendet eine konsistente Aufforderung an, um die Bewertung zu leiten.

Relevanz: Inwieweit die Antwort des Agents die Frage behandelt. Bleibt beispielsweise die Antwort des Agenten auf dem Thema und beantwortet die Frage direkt?
Fundierung: Inwieweit die Reaktion des Agents auf dem bereitgestellten Kontext basiert. Verweist beispielsweise der Antwortverweis des Agents auf die im Kontext angegebenen Informationen oder stützt er darauf ab, anstatt nicht zusammenhängende oder nicht unterstützte Informationen einzuführen?
Vollständigkeit: Inwieweit die Antwort des Agents alle erforderlichen Informationen bereitstellt. Deckt die Reaktion des Agents beispielsweise alle Aspekte der Frage ab und liefert ausreichende Details?
Enthaltung: Gibt an, ob der Agent versucht hat, die Frage zu beantworten.

Um als qualitativ hochwertig zu gelten, muss eine Antwort all diese wichtigen Kriterien erfüllen. Wenn ein Kriterium nicht erfüllt ist, wird die Antwort zur Verbesserung markiert. Diese Bewertungsmethode stellt sicher, dass nur Antworten, die sowohl vollständig als auch gut unterstützt werden, Topmarkierungen erhalten. Im Gegensatz dazu erhalten Antworten, die unvollständig sind oder keine unterstützenden Nachweise enthalten, niedrigere Bewertungen.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie allgemeine Qualität. Alle Testsätze beginnen standardmäßig mit dieser Methode.

Du musst keine erwarteten Antworten in Testfälle hinzufügen, um eine allgemeine Qualitätsbewertung abzuschließen.

Note

Die Verringerung der Anzahl der Wissensquellen für den Agenten gewährleistet nicht, die allgemeine Qualitätsbewertung des Agenten zu verbessern. Diese Einschränkung besteht, da das abgerufene Wissen (Wissen, das das Modell für einen bestimmten Testfall für relevant hält) zu groß sein kann.

Bedeutung vergleichen

Verfügbar für einzelne Antworttestsätze. Vergleich der Bedeutung wertet aus, wie gut die Antwort des Agents die beabsichtigte Bedeutung der erwarteten Antwort widerspiegelt. Anstatt sich auf die genaue Formulierung zu konzentrieren, verwendet es die Ähnlichkeit der Absicht, das heißt, es vergleicht die Ideen und Bedeutungen hinter den Worten, um zu beurteilen, wie eng die Antwort mit den Erwartungen übereinstimmt.

Wie bei der allgemeinen Qualität ist Compare Meaning besonders hilfreich, wenn keine genaue Antwort erwartet wird. Es bietet eine flexible und skalierbare Möglichkeit, Antworten basierend auf den abgerufenen Dokumenten und dem Gesprächsfluss zu bewerten.

Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt. Die standardmäßige Bestehensgrenze liegt bei 50. Die Testmethode für den Bedeutungsvergleich ist nützlich, wenn eine Antwort auf verschiedene richtige Weise formuliert werden kann, aber die allgemeine Bedeutung oder Absicht muss immer noch durchkommen.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie "Bedeutung vergleichen" aus.
Setzen Sie für diese Methode die Bestehenspunktzahl.
Füge die erwarteten Antworten hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Füge die Antwort hinzu, die du erwartest.
3. Wählen Sie Anwenden, um die erwartete Antwort zu speichern.
4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Werkzeuggebrauch

Verfügbar für einzelne Antworttestsätze. Das Tool verwendet Tests, wenn der Agent bestimmte Tools oder Themen verwendet hat, um eine Antwort zu generieren. Wenn dies der Fall ist, besteht sie. Wenn es nicht der Fall ist, schlägt sie fehl.

Wenn Sie Testmethoden hinzufügen oder bearbeiten, wählen Sie "Tool verwenden" aus.
Füge die erwarteten Werkzeuge oder Themen hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus. Wenn Sie die gleichen erwarteten Tools und Themen für alle Testfälle hinzufügen möchten, wählen Sie das Symbol "Bearbeiten" in der Spaltenüberschrift "Extras" aus.
2. Wählen Sie im Bereich "Tools auswählen " die Themen oder Tools aus, die Ihr Agent für diesen Testfall verwenden soll.
3. Wählen Sie OK aus.
4. Wählen Sie "Speichern" aus, um Änderungen zu speichern.
5. Wiederholen Sie diesen Vorgang für alle Testfälle, die Sie für die Verwendung von Tools testen möchten.

Schlüsselwort-Übereinstimmung

Verfügbar für einzelne Antwort- und Unterhaltungstestsätze. Keyword Match prüft, ob die Antwort des Agenten einige oder alle Wörter oder Phrasen der von Ihnen definierten erwarteten Antwort enthält. Wenn dies der Fall ist, wird sie übergeben. Wenn es nicht der Fall ist, schlägt sie fehl.

Du kannst auswählen, ob ein Pass eines der Schlüsselwörter oder alle davon benötigt. Die Wahl von Any bedeutet, dass der Testfall besteht, wenn mindestens ein Wort oder eine Phrase übereinstimmt. Alle auswählen bedeutet, dass alle erwarteten Wörter oder Phrasen übereinstimmen müssen, damit ein Testfall erfolgreich ist.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Keyword-Match.
Wähle aus, ob ein Testfall eine beliebige oderalle Schlüsselwörter benötigt, die übereinstimmen.
Füge die erwarteten Schlüsselwörter hinzu. Jeder Testfall ohne erwartete Schlüsselwörter erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Fügen Sie im Bereich " Testfall bearbeiten " ein Schlüsselwort oder einen Ausdruck hinzu, für den Sie die Antwort dieses Falls erwarten.
3. Wählen Sie +Hinzufügen aus, um weitere Schlüsselwörter oder Ausdrücke hinzuzufügen. Wenn Sie ein Schlüsselwort oder einen Ausdruck entfernen möchten, wählen Sie das Symbol "Löschen " aus.
4. Wählen Sie Apply, um die erwarteten Schlüsselwörter zu speichern.
5. Wiederhole das für alle Testfälle, die du auf Keyword-Matching testen möchtest.

Textähnlichkeit

Die Text-Ähnlichkeitstestmethode vergleicht die Ähnlichkeit der Antworten des Agents mit den erwarteten Antworten, die Sie in Ihrem Testsatz definieren. Verwenden Sie diese Testmethode, wenn eine richtige Antwort genau oder fast genau mit der erwarteten Antwort in der Wort- und Satzstruktur übereinstimmen muss. Beispielsweise ist bei der Erstellung eines Rechtsdokuments häufig präzise Formulierungen erforderlich. Dieser Test wird in der Regel zusammen mit der Compare-Bedeutungstestmethode verwendet, die die Ähnlichkeit der Bedeutung gewährleistet, aber nicht die Ähnlichkeit des Worts gewährleistet. Es unterscheidet sich auch von der Keyword Match-Testmethode , die das Vorhandensein bestimmter Begriffe gewährleistet, aber keine Ähnlichkeit der Konstruktion gewährleistet. Wenn die gesamte Antwort genau mit der erwarteten Antwort übereinstimmen muss, verwenden Sie stattdessen die Testmethode " Genaue Übereinstimmung ".

Eine Metrik der Kosinusähnlichkeit bewertet, wie sehr die Antwort des Agenten dem Wortlaut der erwarteten Antwort ähnelt, und ermittelt daraus eine Bewertung. Der Wert reicht von 0 bis 1, wobei 1 bedeutet, dass die Antwort weitgehend übereinstimmt, und 0 bedeutet, dass dies nicht der Fall ist. Sie können einen Schwellenwert für das Übergeben von Bewertungen festlegen, um zu bestimmen, was eine Übergabebewertung für eine Antwort darstellt.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Textähnlichkeit.
Setzen Sie für diese Methode die Bestehenspunktzahl.
Füge die erwarteten Antworten hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Füge die Antwort hinzu, die du erwartest.
3. Wählen Sie Anwenden, um die erwartete Antwort zu speichern.
4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Genaue Übereinstimmung

Verfügbar für einzelne Antworttestsätze. Genaue Übereinstimmung überprüft, ob die Antwort des Agents exakt der erwarteten Antwort im Test entspricht: Zeichen für Zeichen, Wort für Wort. Sind sie gleich, sind sie bestanden. Wenn etwas anders ist, schlägt es fehl. Genaue Übereinstimmung ist nützlich für kurze, präzise Antworten wie Zahlen, Codes oder feste Ausdrücke. Es passt nicht zu Antworten, die Personen auf mehrere richtige Weise ausdrücken können.

Beim Hinzufügen oder Bearbeiten von Testmethoden wählen Sie Exakte Übereinstimmung.
Füge die erwarteten Antworten hinzu. Jeder Testfall ohne erwartete Antworten erzeugt ein ungültiges Ergebnis für diese Testmethode.
1. Wählen Sie einen Testfall aus.
2. Füge die Antwort hinzu, die du erwartest.
3. Wählen Sie Anwenden, um die erwartete Antwort zu speichern.
4. Wiederhole das für alle Testfälle, die du mit dieser Methode testen möchtest.

Kundenspezifisch

Benutzerdefiniert ist eine anpassbare Testmethode. Auf diese Weise können Sie Agent-Antworten anhand Ihrer eigenen Kriterien testen und bezeichnen. Sie können z. B. einen Compliancetest für einen HR-Agent erstellen, um Testantworten entweder als konform oder nicht konform mit Ihrer Beschreibung der Personalcompliance zu bezeichnen.

Ein benutzerdefinierter Test verfügt über zwei Komponenten, die Sie konfigurieren können:

Auswertungsanweisungen: Beschreibt das Ziel, das Sie mit diesem Test erreichen möchten. Was soll der Test über die Antworten Ihres Agenten erfahren?

Gute Anweisungen zur Bewertung sollten:

Zielorientiert sein.
Verwenden Sie nur die zulässigen Zeichen.
Verwenden Sie Aufzählungszeichen und Überschriften für die Organisation.

Beispiel:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Bezeichnungen: Beschreibt das Ergebnis, das jeder Antwort mithilfe des benutzerdefinierten Tests zugewiesen wurde. Beschriftungen verfügen ebenfalls über Bestanden-/Nicht bestanden-Zuordnungen, die bei der Bestanden-Rate des Testsatzes für diese Testmethode berücksichtigt werden.

Etiketten haben einen Namen und eine Beschreibung. Eine gute Beschreibung:

Ist prägnant.
Enthält die Attribute, die Sie in übereinstimmenden Antworten suchen.

Eine Strategie für Bezeichnungen besteht darin, zwei zu haben: eine für Antworten, die die Kriterien, die Sie suchen, erfolgreich erfüllen, und die andere für Antworten, die dies nicht tun. Ein benutzerdefinierter Test für die Personalrichtliniencompliance kann z. B. " Konform " und "Nicht konform " als Bezeichnungen aufweisen.

Wenn Sie Testmethoden hinzufügen oder bearbeiten, wählen Sie "Benutzerdefiniert" aus.
Geben Sie einen Namen für diesen benutzerdefinierten Test ein.
Fügen Sie Auswertungsanweisungen hinzu.
Fügen Sie zwei oder mehr Bezeichnungen hinzu. Jedes Label hat einen Namen und eine Beschreibung.

Wenn Sie weitere Bezeichnungen hinzufügen möchten, wählen Sie "Bezeichnung hinzufügen" aus.

Bezeichnungstitel können nur Buchstaben, Zahlen, Leerzeichen, Bindestriche -, Unterstriche _, Schrägstriche /, das kaufmännische Und-Zeichen &, Pluszeichen + und Punkt . verwenden.
Legen Sie das Pass- oder Fail-Ergebnis für jedes Label fest.
Wählen Sie OK aus.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-21