Udostępnij przez


Automatyzacja testowania z oceną agenta

[Ten artykuł stanowi wstępną wersję dokumentacji i może ulec zmianie.]

W miarę jak agenci AI przejmują kluczowe role w procesach biznesowych, potrzeba niezawodnego i powtarzalnego testowania staje się niezbędna. Ocena agentów pozwala generować testy symulujące rzeczywiste scenariusze dla twojego agenta. Te testy odpowiadają na więcej pytań szybciej niż ręczne, indywidualne testy. Następnie możesz zmierzyć dokładność, trafność i jakość odpowiedzi na pytania, które agent otrzymuje, na podstawie informacji, do których agent ma dostęp. Korzystając z wyników zestawu testowego, możesz zoptymalizować zachowanie swojego agenta i zweryfikować, czy spełnia wymagania biznesowe i jakościowe.

Ważne

Ten artykuł zawiera dokumentację usługi Microsoft Copilot Studio w wersji zapoznawczej i może ulec zmianie.

Funkcje w wersji zapoznawczej nie są przeznaczone do użytku produkcyjnego i mogą mieć ograniczone funkcje. Te funkcje są udostępniane przed oficjalnym wydaniem, dzięki czemu można szybciej uzyskać do nich dostęp i przekazać opinie na ich temat.

Jeśli kompilowany jest agent gotowy do użycia w środowiskach produkcyjnych, zobacz temat Omówienie usługi Microsoft Copilot Studio (produkcja).

Dlaczego warto stosować testy automatyczne?

Ocena agentów zapewnia zautomatyzowane, uporządkowane testy. Pomaga to wcześnie wykryć problemy, zmniejsza ryzyko błędnych odpowiedzi i utrzymuje jakość w miarę rozwoju agenta. Proces ten wprowadza zautomatyzowaną, powtarzalną formę zapewnienia jakości do testów agentów. Zapewnia to, że agent spełnia standardy dokładności i niezawodności Twojej firmy oraz zapewnia przejrzystość co do jej działań. Ma inne zalety niż testowanie, korzystając z czatu testowego.

Ocena agentów mierzy poprawność i wydajność, a nie problemy etyki czy bezpieczeństwa AI. Agent może przejść wszystkie testy oceny, ale mimo to na przykład udzielić nieodpowiedniej odpowiedzi na pytanie. Klienci powinni nadal korzystać z odpowiedzialnych recenzji AI i filtrów bezpieczeństwa treści; Oceny nie zastępują tych recenzji i filtrów.

Jak działa ocena agentów

Copilot Studio używa przypadku testowego dla każdej oceny agenta. Przypadek testowy to pojedyncza wiadomość lub pytanie, które symuluje to, o co użytkownik zapytałby twojego agenta. Przypadek testowy może również zawierać odpowiedź, której oczekujesz od swojego agenta. Przykład:

  • Pytanie: Jakie są Twoje godziny pracy?

  • Oczekiwana reakcja: Jesteśmy otwarci od 9:00 do 17:00 od poniedziałku do piątku.

Dzięki ocenie agentów możesz generować, importować lub ręcznie pisać grupę przypadków testowych. Ta grupa przypadków testowych nazywana jest zbiorem testowym. Zestaw testowy pozwala Ci:

  • Uruchamiaj wiele przypadków testowych obejmujących szeroki zakres funkcji jednocześnie, zamiast zadawać agentowi jedno pytanie na raz.

  • Przeanalizuj wyniki swojego agenta na łatwym do przyswajenia zagregowanym wyniku, a także przybliż poszczególne przypadki testowe.

  • Testuj zmiany w swoich agentach, używając tego samego zestawu testowego, aby mieć obiektywny standard do pomiaru i porównywania zmian w wydajności.

  • Szybko twórz nowe zestawy testowe lub modyfikuj istniejące, aby uwzględnić zmieniające się możliwości lub wymagania agentów.

Zestaw testowy zawiera także metody testowe , które chcesz użyć. Możesz ocenić wyniki swojego agenta na podstawie:

Możesz także wybrać profil użytkownika, który będzie działał jako użytkownik wysyłający pytania. Agent może być skonfigurowany tak, by reagować na różne osoby lub umożliwiać dostęp do zasobów w różny sposób.

Gdy wybierasz zestaw testowy i przeprowadzasz ocenę agenta, Copilot Studio wysyła pytania z przypadków testowych, rejestruje odpowiedzi agenta, porównuje je z oczekiwanymi odpowiedziami lub standardem jakości oraz przypisuje punkt każdemu przypadku testowemu. Możesz także zobaczyć szczegóły, transkrypcję i mapę aktywności dla każdego przypadku testowego oraz jakie zasoby wykorzystał Twój agent do stworzenia odpowiedzi.

Czat testowy kontra ocena agenta

Każda metoda testowania daje Ci różne wglądy w cechy i zachowania Twojego agenta:

Czat testowy:

  • Otrzymuje i odpowiada na jedno pytanie naraz. Trudno powtarzać te same testy wielokrotnie.

  • Pozwala przetestować pełną sesję zawierającą wiele wiadomości.

  • Pozwala na interakcję z agentem jako użytkownik za pomocą interfejsu czatu.

Ocena agenta:

  • Można tworzyć i uruchamiać wiele przypadków testowych jednocześnie. Możesz powtarzać testy, używając tego samego zestawu testów.

  • Można przetestować tylko jedno pytanie i jedną odpowiedź na każdy przypadek testowy. Nie sprawdza pełnej sesji rozmowy.

  • Wybierz różne profile użytkowników, aby symulować różnych użytkowników bez konieczności samodzielnego dokończania interakcji.

Podczas testowania agenta korzystaj zarówno z czatu testowego, jak i oceny agenta, aby uzyskać pełny obraz agenta.