Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W miarę jak agenci AI przejmują kluczowe role w procesach biznesowych, potrzeba niezawodnego i powtarzalnego testowania staje się niezbędna. Ocena agentów pozwala generować testy symulujące rzeczywiste scenariusze dla twojego agenta. Testy te obejmują więcej pytań i konwersacji szybciej niż ręczne, indywidualne testy przypadków. Następnie można mierzyć dokładność, trafność i jakość odpowiedzi na interakcje agenta, na podstawie informacji, do których agent może uzyskać dostęp. Korzystając z wyników zestawu testowego, możesz zoptymalizować zachowanie swojego agenta i zweryfikować, czy spełnia wymagania biznesowe i jakościowe.
Dlaczego warto stosować testy automatyczne?
Ocena agentów zapewnia zautomatyzowane, uporządkowane testy. Pomaga to wcześnie wykryć problemy, zmniejsza ryzyko błędnych odpowiedzi i utrzymuje jakość w miarę rozwoju agenta. Proces ten wprowadza zautomatyzowaną, powtarzalną formę zapewnienia jakości do testowania agentów. Upewnia się, że agent spełnia standardy dokładności i niezawodności twojej firmy oraz zapewnia przejrzystość w sposobie jego działania. Ma inne zalety niż testowanie, korzystając z czatu testowego.
Przeprowadzasz oceny i widzisz wyniki przy użyciu interfejsu Copilot Studio, za pośrednictwem Interfejsów API REST platformy Power Platform, lub poprzez dodawanie akcji w narzędziach, przepływach lub Power Automate.
Ocena agentów mierzy poprawność i wydajność, a nie problemy etyki czy bezpieczeństwa AI. Agent może przejść wszystkie testy oceny, ale mimo to na przykład udzielić nieodpowiedniej odpowiedzi na pytanie. Klienci powinni nadal używać odpowiedzialnych przeglądów sztucznej inteligencji i filtrów bezpieczeństwa zawartości; oceny nie zastępują tych przeglądów i filtrów.
Ograniczenia rządowej chmury społecznościowej
Ocena agentów w środowiskach Government Community Cloud (GCC) ma następujące ograniczenia:
Twórcy nie mogą dodać profilu użytkownika do swoich zestawów testowych. Jednak producenci nadal mogą przeprowadzać oceny bez profilu użytkownika.
Producenci nie mogą stosować metody testu podobieństwa do ocen. Wszystkie pozostałe metody testowe są dostępne.
Jak działa ocena agentów
Copilot Studio używa przypadku testowego dla każdej oceny agenta. Przypadek testowy to pojedyncza interakcja, która symuluje interakcję użytkownika z agentem. Interakcja może być pojedynczym pytaniem lub całą konwersacją.
Przypadek testowy może również zawierać odpowiedź, której oczekujesz od swojego agenta. Przykład:
Pytanie: Jakie są Twoje godziny pracy?
Oczekiwana reakcja: Jesteśmy otwarci od 9:00 do 17:00 od poniedziałku do piątku.
Dzięki ocenie agentów możesz generować, importować lub ręcznie pisać grupę przypadków testowych. Ta grupa przypadków testowych nazywana jest zbiorem testowym. Zestaw testowy pozwala Ci:
Uruchamiaj wiele przypadków testowych obejmujących szeroki zakres funkcji jednocześnie, zamiast zadawać agentowi jedno pytanie na raz.
Przeanalizuj wydajność swojego agenta za pomocą łatwego do przyswajania zestawionego wyniku, a także przybliż poszczególne przypadki testowe.
Testuj zmiany w swoich agentach, używając tego samego zestawu testowego, aby mieć obiektywny standard do pomiaru i porównywania zmian w wydajności.
Szybko twórz nowe zestawy testowe lub modyfikuj istniejące, aby uwzględnić zmieniające się możliwości lub wymagania agentów.
Każdy zestaw testowy może ocenić agenta za pomocą wielu metod testowych jednocześnie.
Możesz również wybrać profil użytkownika, który będzie zachowywać się jako użytkownik symulowany. Agent może być skonfigurowany tak, by reagować na różne osoby lub umożliwiać dostęp do zasobów w różny sposób.
Po wybraniu zestawu testów i uruchom ocenę agenta, Copilot Studio wysyła pytania w przypadkach testowych, rejestruje odpowiedzi agenta, porównuje te odpowiedzi z oczekiwanymi odpowiedziami lub standardem jakości, i przypisuje ocenę każdemu przypadkowi testowemu. Możesz także zobaczyć szczegóły, transkrypcję i mapę aktywności dla każdego przypadku testowego oraz jakie zasoby wykorzystał Twój agent do stworzenia odpowiedzi.
Tworzenie kompleksowej strategii oceny
Przed uruchomieniem ocen określ, jak wygląda powodzenie agenta i zdecyduj, które scenariusze mają największe znaczenie dla wyników biznesowych. Jasna strategia pomaga wybrać odpowiednie metody testowania, określić priorytety przypadków testowych o dużym wpływie i interpretować wyniki przy użyciu odpowiedniego kontekstu.
Użyj tematu Tworzenie architektury rozwiązań agentów: struktury oceny, aby mapować cele biznesowe na mierzalne wymiary oceny i metody oceniania.
Użyj opcji Projektowanie i operacjonalizacja oceny agentów , aby utworzyć powtarzalny proces oceny, który obsługuje ciągłe ulepszenia jakości.
Integrowanie ocen z zautomatyzowanymi przepływami
Ocena agentów wspiera automatyzację, co pozwala projektantom uruchamiać oceny bez ręcznej interwencji. Za pomocą interfejsów API REST lub łączników platformy Power Platform można programowo wyzwalać przebiegi oceny i integrować testowanie z zautomatyzowanymi przepływami pracy, takimi jak potoki ciągłej integracji i ciągłego wdrażania (CI/CD). Takie podejście umożliwia uruchamianie zestawów testów na dużą skalę i weryfikowanie zachowania agenta w miarę wprowadzania zmian bez konieczności ręcznego wykonywania w Copilot Studio.
Czat testowy kontra ocena agenta
Każda metoda testowania daje Ci różne wglądy w cechy i zachowania Twojego agenta:
Otrzymuje i odpowiada na jedno pytanie naraz. Trudno powtarzać te same testy wielokrotnie.
Pozwala przetestować pełną sesję zawierającą wiele wiadomości.
Umożliwia interakcję z twoim agentem jako jego użytkownik za pomocą interfejsu czatu.
Ocena agenta:
Można tworzyć i uruchamiać wiele przypadków testowych jednocześnie przy użyciu zestawu testów. Testy można powtórzyć, testując przy użyciu tego samego zestawu testów.
Można przetestować jedno pytanie i jedną odpowiedź na przypadek testowy lub jedną konwersację na przypadek testowy. Jednak masz mniejszą kontrolę nad konwersacjami niż podczas korzystania z czatu testowego.
Wybierz różne profile użytkowników, aby symulować różnych użytkowników bez konieczności samodzielnego dokończania interakcji.
Podczas testowania agenta korzystaj zarówno z czatu testowego, jak i oceny agenta, aby uzyskać pełny obraz agenta.
Informacje pokrewne
- Zaplanuj i stwórz test wydajności agenta konwersacyjnego
- Projektowanie i operacjonalizacja oceny agenta
- Ulepszaj agentów poprzez selekcję opartą na ocenie i remediację
- Rozwiązania dla agentów architektonicznych: frameworki ewaluacyjne
- Rozwiązania dla agentów architektonicznych: Powszechne metody oceny