Wybieranie sposobów oceny

Podczas tworzenia zestawów testowych wybierz spośród różnych metod testowania, aby ocenić odpowiedzi swojego agenta. Każda metoda testowania ma własne mocne strony i nadaje się do różnych typów ocen.

Sposób testowania	Miary	Typ zestawu testów	Ocenianie	Konfiguracje
Ogólna jakość	Jak dobre są odpowiedzi przypadku testowego na podstawie określonych cech	Pojedyncza odpowiedź lub konwersacja	Ocena w skali do 100%	Brak
Porównanie znaczenia	Na ile znaczenie odpowiedzi testowej zgadza się z oczekiwaną odpowiedzią	Pojedyncza odpowiedź	Ocena w skali do 100%	Próg zaliczenia, oczekiwana odpowiedź
Użycie narzędzi	Niezależnie od tego, czy przypadek testowy wykorzystał wszystkie lub jakiekolwiek oczekiwane zasoby	Pojedyncza odpowiedź	Zaliczone/niezaliczone	Oczekiwane funkcjonalności
Dopasowanie słowa kluczowego	Czy przypadek testowy użył wszystkich lub którekolwiek z oczekiwanych słów kluczowych lub fraz	Pojedyncza odpowiedź lub konwersacja	Zaliczone/niezaliczone	Oczekiwane słowa kluczowe lub frazy
Podobieństwo tekstu	Jak bardzo tekst odpowiedzi w przypadku testowym jest zgodny z oczekiwaną odpowiedzią	Pojedyncza odpowiedź	Ocena w skali do 100%	Próg zaliczenia, oczekiwana odpowiedź
Dokładne dopasowanie	Czy odpowiedź w przypadku testowym dokładnie pokrywa się z oczekiwaną odpowiedzią	Pojedyncza odpowiedź	Zaliczone/niezaliczone	Oczekiwana odpowiedź
Niestandardowe	Czy odpowiedź w przypadku testowym spełnia określone kryteria lub oczekiwania.	Pojedyncza odpowiedź lub konwersacja	Zaliczenie/niezaliczenie (spełnia zdefiniowane kryteria etykiety)	Nazwa, instrukcje oceny, etykiety

Dodaj metodę testu

Podczas tworzenia lub edytowania zestawu testowego wybierz Dodaj metodę testową.
Wybierz wszystkie metody, które chcesz przetestować, a następnie wybierz OK. Możesz dodać wiele metod.
1. Niektóre metody wymagają oceny zaliczania. Wynik przejścia testu decyduje, czy wynik skutkuje zaliczeniem lub niepowodzeniem. Ustaw wynik, a następnie wybierz OK.
2. Niektóre metody testowe wymagają dodatkowych kryteriów.
Wybierz pozycję Zapisz, aby utrwalić zmiany w temacie.

Wybierz istniejącą metodę testową, aby edytować kryteria tej metody lub usunąć ją.

Ogólna jakość

Dostępne dla zestawów testowych dotyczących pojedynczych odpowiedzi i konwersacji. Ogólna jakość pomaga zdecydować, czy odpowiedzi agenta spełniają Twoje standardy. Wykorzystuje duży model językowy (LLM) do oceny skuteczności odpowiedzi agenta na pytania użytkowników.

Ogólna jakość jest szczególnie pomocna, gdy nie oczekuje się dokładnej odpowiedzi. Oferuje elastyczny i skalowalny sposób oceny odpowiedzi na podstawie pobranych dokumentów i przebiegu rozmowy.

Wykorzystuje te kluczowe kryteria i stosuje spójny prompt do prowadzenia oceny:

Stopień zgodności: w jakim stopniu odpowiedź agenta odpowiada na pytanie. Na przykład, czy odpowiedź agenta dotyczy tematu i bezpośrednio odpowiada na pytanie?
Potwierdzenie w zasobach: w jakim stopniu odpowiedź agenta jest oparta na podanym kontekście. Czy na przykład odpowiedź agenta odwołuje się lub polega na informacjach podanych w kontekście, zamiast wprowadzać niepowiązane lub nieobsługiwane informacje?
Kompletność: w jakim stopniu odpowiedź agenta zawiera wszystkie niezbędne informacje. Czy na przykład odpowiedź agenta obejmuje wszystkie aspekty pytania i dostarcza wystarczających szczegółów?
Powstrzymanie się: czy agent próbował odpowiedzieć na pytanie.

Aby odpowiedź była uznana za wysokiej jakości, musi spełniać wszystkie te kluczowe kryteria. Jeśli jedno z kryteriów nie zostanie spełniona, odpowiedź zostanie oflagowana w celu ulepszenia. Ta metoda oceniania zapewnia, że tylko odpowiedzi, które są kompletne i dobrze obsługiwane, otrzymują najwyższe wskaźniki. W przeciwieństwie do tego, odpowiedzi, które są niepełne lub niewspierane dowodami, otrzymują niższe oceny.

Podczas dodawania lub edytowania metod testowych, wybierz Ogólna jakość. Wszystkie zestawy testowe domyślnie zaczynają się od tej metody.

Nie musisz dodawać oczekiwanych odpowiedzi do przypadków testowych, aby ukończyć ogólną ocenę jakości.

Notatka

Zmniejszenie liczby źródeł wiedzy dla agenta nie gwarantuje poprawy ogólnej oceny jakości podczas ewaluacji agenta. To ograniczenie istnieje, ponieważ uzyskana wiedza (wiedza, którą model uznaje za istotną dla konkretnego przypadku testowego) może być zbyt obszerna.

Porównanie znaczenia

Dostępne dla zestawów testów dotyczących pojedynczej odpowiedzi. Porównanie znaczenia ocenia, jak dobrze odpowiedź agenta odzwierciedla zamierzone znaczenie oczekiwanej odpowiedzi. Zamiast skupiać się na dokładnym sformułowaniu, metoda używa semantycznego podobieństwa — co oznacza, że porównuje pomysły i znaczenie słów — aby ocenić, jak bardzo odpowiedź jest zgodna z oczekiwaną odpowiedzią.

Podobnie jak ogólna jakość, porównanie znaczenia jest szczególnie pomocne, gdy nie oczekuje się dokładnej odpowiedzi. Oferuje elastyczny i skalowalny sposób oceny odpowiedzi na podstawie pobranych dokumentów i przebiegu rozmowy.

Możesz ustawić próg wyniku dla przejścia testu, aby określić, co stanowi wynik przejścia dla odpowiedzi. Domyślny próg zaliczenia to 50. Metoda porównywania znaczenia jest przydatna, gdy odpowiedź może być sformułowana na różne poprawne sposoby, ale ogólne znaczenie lub intencja nadal muszą zaistnieć.

Podczas dodawania lub edytowania metod testowych wybierz Porównaj znaczenie.
Ustaw próg zaliczenia dla tej metody.
Dodaj oczekiwane odpowiedzi. Każdy przypadek testowy bez oczekiwanych odpowiedzi daje wynik Nieprawidłowy dla tej metody testowej.
1. Wybierz przypadki testowe.
2. Dodaj oczekiwaną odpowiedź.
3. Wybierz „Zastosuj”, aby zapisać oczekiwaną odpowiedź.
4. Powtórz dla wszystkich przypadków testowych, które chcesz przetestować tę metodą.

Użycie narzędzi

Dostępne dla zestawów testów dotyczących pojedynczej odpowiedzi. Użycie narzędzi testuje, czy agent użył konkretnych narzędzi lub tematów do uzyskania odpowiedzi. Jeśli tak, test przechodzi. Jeśli tak nie jest, nie powiedzie się.

Podczas dodawania lub edytowania metod testowych wybierz „Tool use”.
Dodaj oczekiwane narzędzia lub tematy. Każdy przypadek testowy bez oczekiwanych odpowiedzi daje wynik Nieprawidłowy dla tej metody testowej.
1. Wybierz przypadki testowe. Aby dodać te same oczekiwane narzędzia i tematy dla wszystkich przypadków testowych, wybierz ikonę Edytuj w nagłówku kolumny Narzędzia.
2. W panelu Wybierz narzędzia wybierz tematy lub narzędzia, które oczekujesz, że agent użyje w danym przypadku testowym.
3. Kliknij przycisk OK.
4. Wybierz Zapisz, aby zapisać zmiany.
5. Powtórz dla wszystkich przypadków testowych, które chcesz przetestować pod kątem użycia narzędzi.

Dopasowanie słowa kluczowego

Dostępne dla zestawów testowych dotyczących pojedynczych odpowiedzi i konwersacji. Dopasowanie słów kluczowych sprawdza, czy odpowiedź agenta zawiera część lub wszystkie słowa lub zwroty z oczekiwanej odpowiedzi, którą definiujesz. Jeśli tak, test przechodzi. Jeśli tak nie jest, nie powiedzie się.

Możesz wybrać, czy zaliczenie wymaga któregoś ze słów kluczowych czy wszystkich. Wybranie opcji Dowolne oznacza, że jeśli przynajmniej jedno słowo lub fraza się zgadza, przykład testowy jest zaliczany. Wybranie Wszystkie oznacza, że wszystkie oczekiwane słowa lub frazy muszą się zgadzać, aby przypadek testowy przeszedł.

Podczas dodawania lub edytowania metod testowych, wybierz Dopasowanie słów kluczowych.
Wybierz, czy przypadek testowy wymaga dopasowania dowolnego lub wszystkich słów kluczowych.
Dodanie słów kluczowych. Każdy przypadek testowy, który nie zawiera oczekiwanych słów kluczowych, daje wynik Nieprawidłowy dla tej metody testowej.
1. Wybierz przypadki testowe.
2. W okienku Edytowanie przypadku testowego dodaj słowo kluczowe lub frazę, których oczekujesz w odpowiedzi.
3. Wybierz + Dodaj, aby dodać więcej słów kluczowych lub fraz. Aby usunąć słowo kluczowe lub frazę, wybierz Usuń.
4. Wybierz „Zastosuj”, aby zapisać oczekiwane słowa kluczowe.
5. Powtórz tę czynność dla wszystkich przypadków testowych, które chcesz przetestować pod kątem dopasowania słów kluczowych.

Podobieństwo tekstu

Metoda testowa podobieństwa tekstu porównuje podobieństwo odpowiedzi agenta z oczekiwanymi odpowiedziami, które definiujesz w swoim zbiorze testowym. Użyj tej metody testowej, gdy poprawna odpowiedź musi dokładnie lub niemal dokładnie odpowiadać oczekiwanej odpowiedzi, zarówno pod względem sformułowania, jak i struktury zdań. Na przykład, precyzyjne sformułowanie jest często potrzebne przy tworzeniu dokumentu prawnego. Ten test jest zazwyczaj stosowany razem z metodą testową porównania znaczenia która zapewnia podobieństwo znaczenia, lecz nie gwarantuje podobieństwa brzmienia. Różni się także od metody testu dopasowania słów kluczowych, która zapewnia obecność określonych terminów, ale nie zapewnia podobieństwa struktury odpowiedzi. Jeśli cała odpowiedź ma pasować do całej oczekiwanej odpowiedzi, użyj metody Dokładne dopasowanie.

Metryka podobieństwa kosinusowego ocenia, na ile odpowiedź agenta jest podobna do brzmienia oczekiwanej odpowiedzi i ustala wynik. Skala ocen z zakresu od 0 do 1, gdzie 1 wskazuje, że odpowiedź jest ściśle zgodna i 0 wskazuje, że nie jest. Możesz ustawić próg wyniku dla przejścia testu, aby określić, co stanowi wynik przejścia dla odpowiedzi.

Podczas dodawania lub edytowania metod testowych wybierz Podobieństwo tekstu.
Ustaw próg zaliczenia dla tej metody.
Dodaj oczekiwane odpowiedzi. Każdy przypadek testowy bez oczekiwanych odpowiedzi daje wynik Nieprawidłowy dla tej metody testowej.
1. Wybierz przypadki testowe.
2. Dodaj oczekiwaną odpowiedź.
3. Wybierz „Zastosuj”, aby zapisać oczekiwaną odpowiedź.
4. Powtórz dla wszystkich przypadków testowych, które chcesz przetestować tę metodą.

Dokładne dopasowanie

Dostępne dla zestawów testów dotyczących pojedynczej odpowiedzi. Dokładne dopasowanie sprawdza, czy odpowiedź agenta dokładnie odpowiada oczekiwanej odpowiedzi w teście: znak w znak, słowo w słowo. Jeśli teksty są identyczne, test przechodzi. Jeśli coś się różni, kończy się niepowodzeniem. Dokładne dopasowanie jest przydatne w przypadku krótkich, precyzyjnych odpowiedzi, takich jak liczby, kody lub stałe frazy. Nie jest odpowiednie do odpowiedzi, które ludzie mogą sformułować na wiele poprawnych sposobów.

Podczas dodawania lub edytowania metod testowych wybierz dokładne dopasowanie.
Dodaj oczekiwane odpowiedzi. Każdy przypadek testowy bez oczekiwanych odpowiedzi daje wynik Nieprawidłowy dla tej metody testowej.
1. Wybierz przypadki testowe.
2. Dodaj oczekiwaną odpowiedź.
3. Wybierz „Zastosuj”, aby zapisać oczekiwaną odpowiedź.
4. Powtórz dla wszystkich przypadków testowych, które chcesz przetestować tę metodą.

Niestandardowe

Metoda niestandardowa jest metodą testową umożliwiającą dostosowanie. Umożliwia testowanie i etykietowanie odpowiedzi agenta przy użyciu własnych kryteriów niestandardowych. Na przykład możesz utworzyć test zgodności dla agenta HR, aby oznaczać odpowiedzi testowe jako zgodny lub niezgodny z opisem zgodności HR.

Test niestandardowy ma dwa elementy do skonfigurowania:

Instrukcja oceny: Opisuje cel, który chcesz osiągnąć tym testem. Co chcesz, aby test sprawdził w odpowiedziach Twojego agenta?

Dobre instrukcje oceny powinny:

Bądź nastawiony na cel.
Używaj tylko dozwolonych znaków.
Używa punktów i nagłówków do organizowania.

Na przykład:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etykiety: Opisują wynik przypisany do każdej odpowiedzi za pomocą niestandardowego testu. Etykiety mają również przypisania zaliczone/niezaliczone, które są liczone do współczynnika zaliczeń zestawu testów dla tej metody testowej.

Etykiety mają nazwę i opis. Dobry opis:

Jest zwięzły.
Zawiera atrybuty, których szukasz w odpowiedziach spełniających kryteria.

Jedną ze strategii dla etykiet jest posiadanie dwóch: jedna jest dla odpowiedź spełniających kryteria, których szukasz, a druga dla tych, które ich nie spełniają. Na przykład test klasyfikacji zgodności polityki HR może mieć Zgodne i Niezgodne jako etykiety.

Podczas dodawania lub edytowania metod testowych wybierz opcję Custom.
Wprowadź nazwę tego niestandardowego testu.
Dodaj instrukcje oceny.
Dodaj dwie lub więcej etykiet. Każda etykieta ma nazwę i opis.

Aby dodać więcej etykiet, wybierz Dodaj etykietę.

Tytuły etykiet mogą używać tylko liter, cyfr, spacji, łącznika -, podkreślenia _, ukośnika /do przodu, ampersand &, znaku plus i +kropki ..
Ustaw wynik Powodzenie lub Niepowodzenie dla każdej etykiety.
Kliknij przycisk OK.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-07-30