Udostępnij przez


Przejrzyj listę kontrolną oceny agenta

Ocena agentów powinna być procesem iteracyjnym, zaczynającym się od fazy wizji i projektowania agenta, a następnie poprzez wdrożenie agenta i wykrywanie regresji. Ten szablon zawiera niezbędne elementy do tworzenia zestawów testowych ewaluacji oraz jak wdrażać i iterować przez czteroetapową strukturę przez cały cykl życia agenta.

Etap 1: Budowa podstawowych zestawów testów ewaluacyjnych

Cel: Stworzyć i przeprowadzić podstawowy zestaw testów ewaluacyjnych, który oceni kluczowe scenariusze agenta.

Zestaw testów ewaluacyjnych to grupa przypadków testowych. Przypadek testowy to indywidualna para prompt-and-response służąca do oceny odpowiedzi agenta na konkretne pytanie. Zawiera on prompt testowy oraz opcjonalną oczekiwaną odpowiedź (asercję) bezpośrednio manifestującą się z wymogu instrukcji agenta. Przypadek testowy powinien również określać kryteria akceptacji oraz metodę testu do oceny jakości.

Scenariusz agenta1 Zadanie testowe
(Przykładowe pytanie dla agenta)
Oczekiwana odpowiedź Kryteria przyjęcia2
(Zdefiniuj, jak wygląda udana odpowiedź: co przechodzi, a co nie)
Agent powinien odpowiadać na treść polityki na podstawie artykułu o wiedzy polisy. "Ile dni chorobowych dostaje pracownik?" "30 dni. <Cytat>" Odpowiedź musi zawierać dokładny tekst z wiedzy polisy i zgodności tekstu. Odpowiedź musi zawierać cytat.
Agent nie powinien odpowiadać na pytania poza artykułem o wiedzy politycznych. Bezpośrednie odpowiedzi do wsparcia HR. "Ile dni chorobowych dostaje pracownik?" "Dokument polityki nie określa dni zwolnienia lekarskiego. Skonsultuj się z działem HR w sprawie swojej polityki zwolnień lekarskich." Odpowiedź na zakazany przypadek musi być kierowana do ludzkiego wsparcia HR.

Wskazówka

1Scenariusz agenta: Podstawowy zestaw testowy powinien zawierać przypadki testowe obejmujące kluczowe scenariusze lub zastosowania agenta. Wykorzystaj scenariusz agenta jako wskazówkę i skup się na tym, co agent ma załatwić lub czego unikać. Proces ten pomaga stworzyć ukierunkowaną listę promptów testowych i powinien być ściśle skoordynowany z opracowaniem instrukcji agenta. Aby określić odpowiednią liczbę przypadków testowych, zacznij od jednego promptu testowego dla każdego kluczowego scenariusza. Zacznij od niewielkiego zestawu przypadków testowych, a następnie iteruj i udoskonalaj w miarę zdobywania informacji i poprawy zasięgu.

2Kryteria akceptacji: Jasno określ, co stanowi sukces. Ta definicja może być na początku trudna, więc rozważ udoskonalenie kryteriów poprzez iterację. Uruchom test prompt, przejrzyj odpowiedź i oceń jej jakość, pytając: Czy odpowiada na główne pytanie? Czy używa poprawnych informacji? Czy ton i styl są odpowiednie? Czy szanuje uprawnienia do udostępniania? Twoje spostrzeżenia z tych pytań pomagają ustalić kryteria akceptacji i, jeśli zajdzie taka potrzeba, oczekiwaną odpowiedź.

Etap 2: Ustalenie punktu wyjścia i poprawa

Cel: Przeprowadzenie ewaluacji i ustalenie bazowych metryk do benchmarku i poprawy.

Możesz oceniać je ręcznie lub używać specjalistycznych narzędzi. Do ręcznej oceny wyślij prompt testowy do agenta, przejrzyj odpowiedź, użyj ludzkiej oceny do oceny spełniającej kryteria akceptacji i zapisz wynik. Microsoft oferuje narzędzia do oceny agentów, w tym funkcję oceny agentów w Copilot Studio.

Ustal punkt wyjścia

  • Uruchom zestaw testów podstawowych na agencie.
  • Każdy przypadek testowy – zalicz lub nie zalicz dokumentu.
  • Oblicz ogólny wskaźnik zdawalności: ______%.
  • Zapisz wersję agenta i datę wyjściową: ___________.

Analiza przyczyn źródłowych i iteracja

Przejrzyj wyniki oceny, aby zidentyfikować fałszywie pozytywne i prawdziwie negatywne wyniki do dalszej analizy. Fałszywie pozytywny wynik to odpowiedź oznaczona jako zdająca, ale powinna nie przejść na podstawie ludzkiego osądu. Prawdziwa przeszkoda to odpowiedź poprawnie zidentyfikowana jako porażka. Oceń nieudane przypadki z dwóch perspektyw:

  • Problem z przypadkiem testowym: Czy to prompt testowy, oczekiwana odpowiedź lub kryteria akceptacji powodują porażkę?
  • Problem z projektowaniem agenta: Czy awaria wskazuje na niejasne instrukcje agenta, błędy w wiedzy lub konfiguracji narzędzi?

Zidentyfikuj przyczynę źródłową i ulepsz ją, doprecyzując przypadek testowy lub ulepszając projekt agenta.

Wskazówka

Ocena zdawalności: Agenci mogą generować różne odpowiedzi na to samo pytanie ze względu na ich probabilistyczny charakter. Ta zmienność może sprawić, że odpowiedzi zostaną zaliczone lub niezaliczone w zależności od rygorystycznych kryteriów akceptacji. Aby zapewnić wiarygodną ocenę, uruchamiaj każdy zestaw testów wielokrotnie i obliczaj średnią skuteczność. Celuj w realistyczny wskaźnik zdawalności na poziomie 80-90%, dostosowany do potrzeb Twojej firmy.

Etap 3: Wdrożenie systematycznej ekspansji

Cel: Stworzenie kompleksowych zestawów ocen dla różnych kategorii kategorii jakości agentów.

Etapy 1 i 2 ustanowiły podstawowy zestaw testów dla głównych przypadków użycia agenta. Następnie poszerz swoją ocenę, tworząc zestawy testowe oceniające różne kategorie jakości agentów. Poniższa lista sugeruje kategorie dotyczące różnych aspektów jakości.

Kategoria jakości Goal
Rdzeń podstawowy Zestaw "must pass". Ocenia niezbędną jakość reakcji podczas wdrożenia i wykonuje detekcję regresji podczas pracy.
Odporność agentów Podstawową wartością jednego agenta w porównaniu z tradycyjnym oprogramowaniem jest jego odporność w obsłudze różnych przypadków użycia. Ta wartość może obejmować:
  • Jak agent odpowiada na to samo pytanie sformułowane w różnych słowach?
  • Jak agent radzi sobie z bogatym kontekstem podanym w poleceniu?
  • Jak zmierzyć wielozamierzenie w jednym promptie?
  • Czy agent potrafi poprawnie odpowiadać na prośby specyficzne dla użytkownika?
Agent powinien radzić sobie z odmiennością przypadków użycia z łaską i może być oceniany za pomocą dedykowanych przypadków testowych.
Test architektury Oceń funkcjonalną wydajność agenta. Wymiary mogą obejmować:
  • Wołanie narzędzi, działanie
  • Zachowanie związane z wyszukiwaniem i cytowaniem wiedzy
  • Logika routowania
  • Całkowanie przekazów
Przypadki brzegowe Jak agent powinien postępować w przypadku niezgodnym z zabezpieczeniami.
  • Warunki brzegowe
  • Zachowania niedozwolone i niezgodne z zakresem

Wskazówka

Odniesienie do celu kategorii:

  • Rdzeń zawodzi: Coś jest zepsute lub nie działa. Zbadaj ostatnie zmiany.
  • Odporność zawodzi: Agent jest zbyt rygorystyczny. Może być zbyt skupiony na konkretnych sformułowaniach.
  • Architektura zawodzi: Konkretny komponent lub workflow wymaga debugowania.
  • Przypadki graniczne zawodzą: Bariery wymagają poprawy. Wzmacniaj granice.  

Etap 4: Ustanowienie ciągłej operacji oceny jakości

Cel: Wprowadzenie ciągłego monitoringu ewaluacyjnego, aby utrzymać jakość agentów podczas działania.

Gdy wdrożysz agenta do produkcji, wchodzi on w fazę stabilności. Aby utrzymać jakość i szybko wykryć regresje lub problemy wynikające ze zmian produktowych (takich jak aktualizacje modeli czy systemów wiedzy) lub zmieniających się przypadków użycia, uruchom ciągłą operację ewaluacji. Planuj regularne przeglądy lub uruchamiaj je na podstawie konkretnych zdarzeń dla zapewnienia jakości.

  • Ustal regularny rytm ocen i konserwacji.
  • Proponowane pełne wyzwalacze analizy pakietu:
    • Zmiana modelu
    • Aktualizacja dotycząca dużej wiedzy
    • Nowe integracje narzędzi lub złączy
    • Incydent produkcyjny

Wskazówka

Wskaźnik sukcesu: Operacjonalizujesz skutecznie, gdy możesz odpowiadać na pytania interesariuszy konkretnymi pytaniami, zamiast mówić: "Agent wydaje się w porządku."

Piszesz: "Zgodność z polityką wynosi 98%, ale personalizacja spadła do 87%— konkretnie, polityki oparte na stażu zatrudnienia nie są stosowane. Zidentyfikowaliśmy przyczynę i iterujemy."