Del via


Gennemgå agentvurderingslisten

Agentevaluering bør være en iterativ proces, der starter fra agentens visions- og designfase og fortsætter gennem agentudrulning og regressionsdetektion. Denne skabelon giver de væsentlige elementer til at opbygge evalueringstestsæt og hvordan man implementerer og itererer gennem en firetrinsstruktur gennem hele agentens livscyklus.

Tips

Download den redigerbare tjeklisteskabelon.

Fase 1: Byg grundlæggende evalueringstestsæt

Mål: Skab og kør et grundlæggende evalueringstestsæt, der vurderer agentens kernescenarier.

Et evalueringstestsæt er en gruppe af testtilfælde. Et testtilfælde er et individuelt prompt-og-svar-par, der evaluerer en agents svar på et specifikt spørgsmål. Den indeholder en testprompt og et valgfrit forventet svar (assertion), som direkte udspringer af agentinstruktionskravet. Et testtilfælde bør også specificere acceptkriterierne og testmetoden for at evaluere kvaliteten.

Agent-scenarie1 Testprompt
(Eksempel på spørgsmålsprompt til agent)
Forventet svar Acceptkriterier2
(Definér, hvordan et succesfuldt svar ser ud: Hvad der går igennem, og hvad der ikke gør)
Agenten bør besvare politikindholdet baseret på policy-vidensartiklen. "Hvor mange sygedage får en medarbejder?" "30 dage. <Kilde>" Svaret skal indeholde den præcise tekst fra politikkendskabet og tekstmatchen. Svaret skal indeholde en kilde.
Agenten bør ikke besvare spørgsmål ud over policy-vidensartiklen. Direkte svar til HR's menneskelige support. "Hvor mange sygedage får en medarbejder?" "Policedokumentet specificerer ikke sygedage. Kontakt HR om din sygefraværspolitik." Svar på forbudt sag skal sendes til HR-support.

Tips

1Agent-scenarie: Et grundlæggende testsæt bør inkludere testcases, der dækker agentens nøglescenarier eller anvendelsestilfælde. Brug agentscenariet som vejledning og fokuser på, hvad agenten skal håndtere eller undgå. Denne proces hjælper dig med at udarbejde en målrettet liste af testprompts og bør koordineres tæt med udviklingen af agentinstruktioner. For at bestemme det rette antal testcases starter du med én testprompt for hvert nøglescenarie. Start med et lille sæt testcases, og iterer og forfin, efterhånden som du får indsigt og forbedrer dækningen.

2Acceptkriterier: Definer klart, hvad der udgør succes. Denne definition kan være udfordrende i starten, så overvej at forfine dine kriterier gennem iteration. Kør testprompten, gennemgå svaret, og vurder kvaliteten ved at spørge: Svarer det på hovedspørgsmålet? Bruger den de korrekte oplysninger? Er tonen og stilen passende? Respekterer den delingstilladelser? Dine indsigter fra disse spørgsmål hjælper dig med at fastlægge acceptkriterier og, hvis nødvendigt, et forventet svar.

Fase 2: Etabler et udgangspunkt og forbedring

Mål: Kør evalueringer og etabler baseline-målinger for at benchmarke og forbedre.

Du kan udføre evalueringen manuelt eller bruge specialiserede værktøjer. Ved manuel evaluering sendes testprompten til agenten, gennemgås svaret, bruges menneskelig vurdering til at afgøre, om det opfylder acceptkriterierne, og registrerer resultatet. Microsoft tilbyder værktøjer til agentevaluering, herunder Copilot Studio agentevalueringsfunktionen.

Etabler baseline

  • Kør den grundlæggende test mod agenten.
  • Dokument, bestået eller ikke bestået for hvert testtilfælde.
  • Beregn den samlede beståelsesprocent: ______%.
  • Optag agentversionen og baseline-datoen: ___________.

Rodårsagsanalyse og iteration

Gennemgå evalueringsresultaterne for at identificere falske positive og sande negative til videre analyse. Et falsk positivt svar er et svar, der er markeret som bestået, men bør fejle ud fra menneskelig vurdering. Et sandt negativt svar er et korrekt identificeret svar som en fiasko. Vurder de fejlede sager fra to perspektiver:

  • Testcase-problem: Er det testprompten, forventet svar eller acceptkriterierne, der forårsager fejlen?
  • Agent design-problem: Indikerer fejlen uklar agentinstruktion eller fejl i viden eller værktøjskonfiguration?

Identificer den grundlæggende årsag og forbedr ved enten at forfine testtilfældet eller forbedre agentens design.

Tips

Evalueringsbeståelsesscore: Agenter kan give forskellige svar på den samme prompt på grund af deres probabilistiske natur. Denne variation kan få svar til at bestå eller dumpe, afhængigt af hvor strenge acceptkriterierne er. For at sikre pålidelig evaluering, kør hvert testsæt flere gange og beregn den gennemsnitlige succesrate. Sigt efter en realistisk beståelsesprocent på 80-90%, baseret på dine forretningsbehov.

Fase 3: Implementér systematisk udvidelse

Mål: Byg omfattende evalueringssuiter på forskellige mæglerkvalitetskategorier.

Trin 1 og 2 etablerede det grundlæggende testsæt for agentens primære anvendelsesscenarier. Udvid dernæst din evaluering ved at lave testsæt, der vurderer forskellige kvalitetskategorier for agenter. Følgende liste foreslår kategorier, der adresserer forskellige aspekter af kvalitet.

Kvalitetskategori Mål
Grundlæggende kerne "Must pass"-sættet. Den måler den essentielle responskvalitet ved udrulning og udfører regressionsdetektion under drift.
Agentrobusthed En agents kerneværdi i forhold til traditionel software er dens robusthed i håndteringen af forskellige anvendelsestilfælde. Denne værdi kan omfatte:
  • Hvordan svarer agenten på det samme spørgsmål formuleret i forskellige termer?
  • Hvordan håndterer agenten rig kontekst, der gives i prompten?
  • Hvordan måler man multi-intention i en enkelt prompt?
  • Kan agenten besvare brugerspecifikke forespørgsler korrekt?
Agenten bør håndtere variationen i brugstilfældene med ynde og kan evalueres med dedikerede testcases.
Arkitekturtest Evaluer agentens funktionelle præstation. Dimensioner kan inkludere:
  • Værktøjskald, handling
  • Videnssøgning og citationsadfærd
  • Routinglogik
  • Integration af overdragelser
Kanttilfælde Hvordan agenten bør håndtere undtagelsestilfælde med sikkerhedsforanstaltninger.
  • Randbetingelser
  • Ikke tilladt og adfærd uden for deres rammer

Tips

Kategoriformålsreference:

  • Kernefejl: Noget er i stykker eller virker ikke. Undersøg de seneste ændringer.
  • Robusthed fejler: Agenten er for streng. Det kan være for fokuseret på specifikke formuleringer.
  • Arkitekturen fejler: En specifik komponent eller arbejdsgang skal fejlfindes.
  • Kanttilfælde fejler: Sikkerhedsforanstaltninger skal forbedres. Styrk grænser.  

Fase 4: Etabler en kontinuerlig evalueringsoperation for kvalitetsforbedring

Mål: Etabler kontinuerlig evalueringsovervågning for at opretholde agentkvaliteten under driften.

Når du har udsendt en agent til produktion, går den ind i en stabil fase. For at opretholde kvaliteten og hurtigt opdage regressioner eller problemer fra produktændringer (såsom modelopgraderinger eller opdateringer af videnssystem) eller udviklende anvendelsestilfælde, skal du oprette en løbende evalueringsoperation. Planlæg regelmæssige evalueringsrunder eller udløs dem baseret på specifikke hændelser for kvalitetssikring.

  • Sæt en fast evaluering af vedligeholdelsesrytmen.
  • Foreslåede udløsere for fuld suite evaluering:
    • Modelændring
    • Opdatering af større vidensopsætning
    • Nye værktøjs- eller connectorintegrationer
    • Produktionshændelse

Tips

Succesindikator: Du operationaliserer succesfuldt, når du kan besvare interessenters bekymringer med specifikke detaljer, i stedet for at sige: "Agenten virker okay."

Du siger: "Overholdelse af politikker er på 98%, men Personalisering faldt til 87%— specifikt anvendes tenurebaserede politikker ikke. Vi har identificeret den egentlige årsag og iterererer."