Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
[Ten artykuł stanowi wstępne wydanie dokumentacji i może ulec zmianie.]
Tworząc zestawy testowe, możesz wybierać spośród różnych metod testowych do oceny odpowiedzi agenta: dopasowanie tekstu, podobieństwo i jakość. Każda metoda testowania ma własne mocne strony i nadaje się do różnych typów ocen.
Metody testowania dopasowania tekstu
Metody testu dopasowania tekstu porównują odpowiedzi agenta z oczekiwanymi odpowiedziami zdefiniowanymi w zestawie testowym. Istnieją dwa testy zgodności:
Dokładne dopasowanie sprawdza, czy odpowiedź agenta dokładnie odpowiada oczekiwanej odpowiedzi w teście: znak znaku, słowo dla wyrazu. Jeśli jest taka sama, przechodzi. Jeśli coś się różni, kończy się niepowodzeniem. Dokładne dopasowanie jest przydatne w przypadku krótkich, precyzyjnych odpowiedzi, takich jak liczby, kody lub stałe frazy. Nie jest odpowiednie do odpowiedzi, które ludzie mogą sformułować na wiele poprawnych sposobów.
Dopasowanie słów kluczowych sprawdza, czy odpowiedź agenta zawiera niektóre słowa lub frazy z oczekiwanej odpowiedzi, którą definiujesz. Jeśli tak, test przechodzi. Jeśli tak nie jest, nie powiedzie się. Dopasowanie słów kluczowych jest przydatne, gdy odpowiedź można sformułować w różny, poprawny sposób, ale kluczowe terminy lub idee muszą być zawarte w odpowiedzi.
Metody testowania podobieństwa
Metoda testu podobieństwa porównuje podobieństwo odpowiedzi agenta do oczekiwanych odpowiedzi, które definiujesz w swoim zbiorze testowym. Jest to przydatne, gdy odpowiedź może być sformułowana na różne poprawne sposoby, ale ogólne znaczenie lub intencja nadal muszą zaistnieć.
Używa metryki podobieństwa cosinusowego, aby ocenić podobieństwo odpowiedzi agenta do sformułowania i znaczenia oczekiwanej odpowiedzi, i określa wynik. Skala ocen z zakresu od 0 do 1, gdzie 1 wskazuje, że odpowiedź jest ściśle zgodna i 0 wskazuje, że nie jest. Możesz ustawić próg wyniku dla przejścia testu, aby określić, co stanowi wynik przejścia dla odpowiedzi.
Metody testowania jakości
Metody testów jakości pomagają zdecydować, czy odpowiedzi agenta spełniają Twoje standardy. Takie podejście zapewnia, że wyniki są niezawodne i łatwe do wyjaśnienia.
Te metody używają dużego modelu językowego (LLM), aby ocenić, jak skutecznie agent odpowiada na pytania użytkowników. Są one szczególnie przydatne, gdy nie ma dokładnej oczekiwanej odpowiedzi, oferując elastyczny i skalowalny sposób oceniania odpowiedzi na podstawie pobranych dokumentów i przepływu konwersacji.
Metody testowania jakości obejmują dwie metody testowania:
Ogólna jakość ocenia odpowiedzi agenta. Wykorzystuje te kluczowe kryteria i stosuje spójny prompt do prowadzenia oceny:
Stopień zgodności: w jakim stopniu odpowiedź agenta odpowiada na pytanie. Czy na przykład odpowiedź agenta pozostaje w temacie i bezpośrednio odpowiada na pytanie?
Potwierdzenie w zasobach: w jakim stopniu odpowiedź agenta jest oparta na podanym kontekście. Czy na przykład odpowiedź agenta odwołuje się lub polega na informacjach podanych w kontekście, zamiast wprowadzać niepowiązane lub nieobsługiwane informacje?
Kompletność: w jakim stopniu odpowiedź agenta zawiera wszystkie niezbędne informacje. Czy na przykład odpowiedź agenta obejmuje wszystkie aspekty pytania i dostarcza wystarczających szczegółów?
Powstrzymanie się: czy agent próbował odpowiedzieć na pytanie.
Aby odpowiedź była uznana za wysokiej jakości, musi spełniać wszystkie te kluczowe kryteria. Jeśli jedno z kryteriów nie jest spełnione, odpowiedź jest oznaczana do poprawy. Ta metoda oceniania zapewnia, że tylko odpowiedzi, które są kompletne i dobrze obsługiwane, otrzymują najwyższe wskaźniki. Natomiast odpowiedzi, które są niekompletne lub brakuje dowodów pomocniczych, otrzymują niższe wyniki.
Porównanie znaczenia ocenia, jak dobrze odpowiedź agenta odzwierciedla zamierzone znaczenie oczekiwanej odpowiedzi. Zamiast skupiać się na dokładnym sformułowaniu, używa podobności intencyjnej, czyli porównuje idee i znaczenie stojące za słowami, aby ocenić, jak bardzo odpowiedź odpowiada oczekiwaniom.
Możesz ustawić próg wyniku dla przejścia testu, aby określić, co stanowi wynik przejścia dla odpowiedzi. Domyślny wynik zdawalny to 50. Metoda porównywania znaczenia jest przydatna, gdy odpowiedź może być sformułowana na różne poprawne sposoby, ale ogólne znaczenie lub intencja nadal muszą zaistnieć.
Progi i współczynniki przejścia
Powodzenie scenariusza testowego zależy od metody testowej, którą wybierzesz, oraz progu, który ustalisz dla wyników zaliczenia.
Każda metoda testu, z wyjątkiem dokładnego dopasowania, daje wynik liczbowy na podstawie zestawu kryteriów oceny. Ten wynik odzwierciedla, jak dobrze odpowiedź agenta spełnia te kryteria. Próg jest wynikiem odcinania, który oddziela przejście testu od niepowodzenia. Możesz ustawić wyniki przejścia dla podobieństwa i porównać przypadki testu znaczenia.
Dokładne dopasowanie to ścisła metoda testowa, która nie daje wyniku liczbowego. Odpowiedź musi się dokładnie zgadzać, aby zaliczyć. Wybierając próg dla przypadku testowego, decydujesz, jak ścisła lub łagodne jest ocena. Każda metoda testowa ocenia odpowiedź agenta inaczej, dlatego ważne jest, aby wybrać tę, która najlepiej pasuje do kryteriów oceny.