Udostępnij przez


Wybierz metody oceny

[Ten artykuł stanowi wstępne wydanie dokumentacji i może ulec zmianie.]

W Copilot Studio możesz stworzyć zestaw testowych przypadków do oceny wydajności swoich agentów. Przypadki testowe pozwalają na symulowanie rzeczywistych scenariuszy dla agenta, dzięki czemu można mierzyć dokładność, trafność i jakość odpowiedzi na pytania, które są zadawane agentowi, na podstawie informacji, do których może uzyskiwać dostęp. Korzystając z wyników zestawu testowego, możesz zoptymalizować zachowanie swojego agenta i zweryfikować, czy spełnia wymagania biznesowe i jakościowe.

Ważne

Ten artykuł zawiera dokumentację usługi Microsoft Copilot Studio w wersji zapoznawczej i może ulec zmianie.

Funkcje w wersji zapoznawczej nie są przeznaczone do użytku produkcyjnego i mogą mieć ograniczone funkcje. Te funkcje są udostępniane przed oficjalnym wydaniem, dzięki czemu można szybciej uzyskać do nich dostęp i przekazać opinie na ich temat.

Jeśli kompilowany jest agent gotowy do użycia w środowiskach produkcyjnych, zobacz temat Omówienie usługi Microsoft Copilot Studio (produkcja).

Metody testowania

Tworząc zestawy testowe, możesz wybierać spośród różnych metod testowych do oceny odpowiedzi agenta: dopasowanie tekstu, podobieństwo i jakość. Każda metoda testowania ma własne mocne strony i nadaje się do różnych typów ocen.

Metody testowania dopasowania tekstu

Metody testu dopasowania tekstu porównują odpowiedzi agenta z oczekiwanymi odpowiedziami zdefiniowanymi w zestawie testowym. Istnieją dwa testy zgodności:

Dokładne dopasowanie sprawdza, czy odpowiedź agenta dokładnie odpowiada oczekiwanej odpowiedzi w teście: znak znaku, słowo dla wyrazu. Jeśli jest taka sama, przechodzi. Jeśli coś się różni, kończy się niepowodzeniem. Dokładne dopasowanie jest przydatne w przypadku krótkich, precyzyjnych odpowiedzi, takich jak liczby, kody lub stałe frazy. Nie jest odpowiednie do odpowiedzi, które ludzie mogą sformułować na wiele poprawnych sposobów.

Częściowe dopasowanie sprawdza, czy odpowiedź agenta zawiera niektóre słowa lub frazy z oczekiwanej odpowiedzi, którą definiujesz. Jeśli tak, test przechodzi. Jeśli tak nie jest, nie powiedzie się. Częściowe dopasowanie jest przydatne, gdy odpowiedź może być sformułowana na różne poprawne sposoby, ale kluczowe terminy lub pomysły nadal muszą zostać uwzględnione w odpowiedzi.

Metody testowania podobieństwa

Metoda testu podobieństwa porównuje podobieństwo odpowiedzi agenta do oczekiwanych odpowiedzi zdefiniowanych w zestawie testów. Jest to przydatne, gdy odpowiedź może być sformułowana na różne poprawne sposoby, ale ogólne znaczenie lub intencja nadal muszą zaistnieć.

Używa metryki podobieństwa cosinusowego, aby ocenić podobieństwo odpowiedzi agenta do sformułowania i znaczenia oczekiwanej odpowiedzi, i określa wynik. Skala ocen z zakresu od 0 do 1, gdzie 1 wskazuje, że odpowiedź jest ściśle zgodna i 0 wskazuje, że nie jest. Możesz ustawić próg wyniku dla przejścia testu, aby określić, co stanowi wynik przejścia dla odpowiedzi.

Metody testowania jakości

Metody testów jakości pomagają zdecydować, czy odpowiedzi agenta spełniają Twoje standardy. Takie podejście zapewnia, że wyniki są niezawodne i łatwe do wyjaśnienia.

Te metody używają dużego modelu językowego (LLM), aby ocenić, jak skutecznie agent odpowiada na pytania użytkowników. Są one szczególnie przydatne, gdy nie ma dokładnej oczekiwanej odpowiedzi, oferując elastyczny i skalowalny sposób oceniania odpowiedzi na podstawie pobranych dokumentów i przepływu konwersacji.

Metody testowania jakości obejmują dwie metody testowania:

Ogólna jakość ocenia odpowiedzi agenta. Wykorzystuje te kluczowe kryteria i stosuje spójny prompt do prowadzenia oceny:

  • Stopień zgodności: w jakim stopniu odpowiedź agenta odpowiada na pytanie. Czy na przykład odpowiedź agenta pozostaje w temacie i bezpośrednio odpowiada na pytanie?

  • Potwierdzenie w zasobach: w jakim stopniu odpowiedź agenta jest oparta na podanym kontekście. Czy na przykład odpowiedź agenta odwołuje się lub polega na informacjach podanych w kontekście, zamiast wprowadzać niepowiązane lub nieobsługiwane informacje?

  • Kompletność: w jakim stopniu odpowiedź agenta zawiera wszystkie niezbędne informacje. Czy na przykład odpowiedź agenta obejmuje wszystkie aspekty pytania i dostarcza wystarczających szczegółów?

  • Powstrzymanie się: czy agent próbował odpowiedzieć na pytanie.

Aby odpowiedź była uznana za wysokiej jakości, musi spełniać wszystkie te kluczowe kryteria. Jeśli jedno z kryteriów nie jest spełnione, odpowiedź jest oznaczana do poprawy. Ta metoda oceniania zapewnia, że tylko odpowiedzi, które są kompletne i dobrze obsługiwane, otrzymują najwyższe wskaźniki. Natomiast odpowiedzi, które są niekompletne lub brakuje dowodów pomocniczych, otrzymują niższe wyniki.

Porównanie znaczenia ocenia, jak dobrze odpowiedź agenta odzwierciedla zamierzone znaczenie oczekiwanej odpowiedzi. Zamiast skupiać się na dokładnym sformułowaniu, używa podobności intencyjnej, czyli porównuje idee i znaczenie stojące za słowami, aby ocenić, jak bardzo odpowiedź odpowiada oczekiwaniom.

Możesz ustawić próg wyniku dla przejścia testu, aby określić, co stanowi wynik przejścia dla odpowiedzi. Domyślny wynik zdawalny to 50. Metoda porównywania znaczenia jest przydatna, gdy odpowiedź może być sformułowana na różne poprawne sposoby, ale ogólne znaczenie lub intencja nadal muszą zaistnieć.

Progi i współczynniki przejścia

Powodzenie scenariusza testowego zależy od metody testowej, którą wybierzesz, oraz progu, który ustalisz dla wyników zaliczenia.

Każda metoda testowa, z wyjątkiem dokładnego dopasowania, generuje wynik liczbowy na podstawie zestawu kryteriów oceny, które odzwierciedlają, jak dobrze odpowiedź agenta spełnia te kryteria. Próg jest wynikiem odcinania, który oddziela przejście testu od niepowodzenia. Możesz ustawić wyniki przejścia dla podobieństwa i porównać przypadki testu znaczenia.

Dokładne dopasowanie to ścisła metoda testowa, która nie generuje wyniku liczbowego; odpowiedź musi być dokładnie zgodna, aby uznać przejście testu. Wybierając próg dla przypadku testowego, decydujesz, jak ścisła lub łagodne jest ocena. Każda metoda testowa ocenia odpowiedź agenta inaczej, dlatego ważne jest, aby wybrać tę, która najlepiej pasuje do kryteriów oceny.