Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
Agentevaluering bør være en iterativ proces, der starter fra agentens visions- og designfase og fortsætter gennem agentudrulning og regressionsdetektion. Denne skabelon giver de væsentlige elementer til at opbygge evalueringstestsæt og hvordan man implementerer og itererer gennem en firetrinsstruktur gennem hele agentens livscyklus.
- Fase 1: Byg grundlæggende evalueringstestsæt
- Trin 2: Etabler en baseline, iterer og forfine testsæt og agentinstruktion
- Fase 3: Implementér systematisk udvidelse (regression, variation, diagnostik, grænsetilfælde)
- Fase 4: Etabler en kontinuerlig evalueringsoperation for kvalitetsforbedring
Tips
Download den redigerbare tjeklisteskabelon.
Fase 1: Byg grundlæggende evalueringstestsæt
Mål: Skab og kør et grundlæggende evalueringstestsæt, der vurderer agentens kernescenarier.
Et evalueringstestsæt er en gruppe af testtilfælde. Et testtilfælde er et individuelt prompt-og-svar-par, der evaluerer en agents svar på et specifikt spørgsmål. Den indeholder en testprompt og et valgfrit forventet svar (assertion), som direkte udspringer af agentinstruktionskravet. Et testtilfælde bør også specificere acceptkriterierne og testmetoden for at evaluere kvaliteten.
| Agent-scenarie1 | Testprompt (Eksempel på spørgsmålsprompt til agent) |
Forventet svar | Acceptkriterier2 (Definér, hvordan et succesfuldt svar ser ud: Hvad der går igennem, og hvad der ikke gør) |
|---|---|---|---|
| Agenten bør besvare politikindholdet baseret på policy-vidensartiklen. | "Hvor mange sygedage får en medarbejder?" | "30 dage. <Kilde>" | Svaret skal indeholde den præcise tekst fra politikkendskabet og tekstmatchen. Svaret skal indeholde en kilde. |
| Agenten bør ikke besvare spørgsmål ud over policy-vidensartiklen. Direkte svar til HR's menneskelige support. | "Hvor mange sygedage får en medarbejder?" | "Policedokumentet specificerer ikke sygedage. Kontakt HR om din sygefraværspolitik." | Svar på forbudt sag skal sendes til HR-support. |
Tips
1Agent-scenarie: Et grundlæggende testsæt bør inkludere testcases, der dækker agentens nøglescenarier eller anvendelsestilfælde. Brug agentscenariet som vejledning og fokuser på, hvad agenten skal håndtere eller undgå. Denne proces hjælper dig med at udarbejde en målrettet liste af testprompts og bør koordineres tæt med udviklingen af agentinstruktioner. For at bestemme det rette antal testcases starter du med én testprompt for hvert nøglescenarie. Start med et lille sæt testcases, og iterer og forfin, efterhånden som du får indsigt og forbedrer dækningen.
2Acceptkriterier: Definer klart, hvad der udgør succes. Denne definition kan være udfordrende i starten, så overvej at forfine dine kriterier gennem iteration. Kør testprompten, gennemgå svaret, og vurder kvaliteten ved at spørge: Svarer det på hovedspørgsmålet? Bruger den de korrekte oplysninger? Er tonen og stilen passende? Respekterer den delingstilladelser? Dine indsigter fra disse spørgsmål hjælper dig med at fastlægge acceptkriterier og, hvis nødvendigt, et forventet svar.
Fase 2: Etabler et udgangspunkt og forbedring
Mål: Kør evalueringer og etabler baseline-målinger for at benchmarke og forbedre.
Du kan udføre evalueringen manuelt eller bruge specialiserede værktøjer. Ved manuel evaluering sendes testprompten til agenten, gennemgås svaret, bruges menneskelig vurdering til at afgøre, om det opfylder acceptkriterierne, og registrerer resultatet. Microsoft tilbyder værktøjer til agentevaluering, herunder Copilot Studio agentevalueringsfunktionen.
Etabler baseline
- Kør den grundlæggende test mod agenten.
- Dokument, bestået eller ikke bestået for hvert testtilfælde.
- Beregn den samlede beståelsesprocent: ______%.
- Optag agentversionen og baseline-datoen: ___________.
Rodårsagsanalyse og iteration
Gennemgå evalueringsresultaterne for at identificere falske positive og sande negative til videre analyse. Et falsk positivt svar er et svar, der er markeret som bestået, men bør fejle ud fra menneskelig vurdering. Et sandt negativt svar er et korrekt identificeret svar som en fiasko. Vurder de fejlede sager fra to perspektiver:
- Testcase-problem: Er det testprompten, forventet svar eller acceptkriterierne, der forårsager fejlen?
- Agent design-problem: Indikerer fejlen uklar agentinstruktion eller fejl i viden eller værktøjskonfiguration?
Identificer den grundlæggende årsag og forbedr ved enten at forfine testtilfældet eller forbedre agentens design.
Tips
Evalueringsbeståelsesscore: Agenter kan give forskellige svar på den samme prompt på grund af deres probabilistiske natur. Denne variation kan få svar til at bestå eller dumpe, afhængigt af hvor strenge acceptkriterierne er. For at sikre pålidelig evaluering, kør hvert testsæt flere gange og beregn den gennemsnitlige succesrate. Sigt efter en realistisk beståelsesprocent på 80-90%, baseret på dine forretningsbehov.
Fase 3: Implementér systematisk udvidelse
Mål: Byg omfattende evalueringssuiter på forskellige mæglerkvalitetskategorier.
Trin 1 og 2 etablerede det grundlæggende testsæt for agentens primære anvendelsesscenarier. Udvid dernæst din evaluering ved at lave testsæt, der vurderer forskellige kvalitetskategorier for agenter. Følgende liste foreslår kategorier, der adresserer forskellige aspekter af kvalitet.
| Kvalitetskategori | Mål |
|---|---|
| Grundlæggende kerne | "Must pass"-sættet. Den måler den essentielle responskvalitet ved udrulning og udfører regressionsdetektion under drift. |
| Agentrobusthed | En agents kerneværdi i forhold til traditionel software er dens robusthed i håndteringen af forskellige anvendelsestilfælde. Denne værdi kan omfatte:
|
| Arkitekturtest | Evaluer agentens funktionelle præstation. Dimensioner kan inkludere:
|
| Kanttilfælde | Hvordan agenten bør håndtere undtagelsestilfælde med sikkerhedsforanstaltninger.
|
Tips
Kategoriformålsreference:
- Kernefejl: Noget er i stykker eller virker ikke. Undersøg de seneste ændringer.
- Robusthed fejler: Agenten er for streng. Det kan være for fokuseret på specifikke formuleringer.
- Arkitekturen fejler: En specifik komponent eller arbejdsgang skal fejlfindes.
- Kanttilfælde fejler: Sikkerhedsforanstaltninger skal forbedres. Styrk grænser.
Fase 4: Etabler en kontinuerlig evalueringsoperation for kvalitetsforbedring
Mål: Etabler kontinuerlig evalueringsovervågning for at opretholde agentkvaliteten under driften.
Når du har udsendt en agent til produktion, går den ind i en stabil fase. For at opretholde kvaliteten og hurtigt opdage regressioner eller problemer fra produktændringer (såsom modelopgraderinger eller opdateringer af videnssystem) eller udviklende anvendelsestilfælde, skal du oprette en løbende evalueringsoperation. Planlæg regelmæssige evalueringsrunder eller udløs dem baseret på specifikke hændelser for kvalitetssikring.
- Sæt en fast evaluering af vedligeholdelsesrytmen.
- Foreslåede udløsere for fuld suite evaluering:
- Modelændring
- Opdatering af større vidensopsætning
- Nye værktøjs- eller connectorintegrationer
- Produktionshændelse
Tips
Succesindikator: Du operationaliserer succesfuldt, når du kan besvare interessenters bekymringer med specifikke detaljer, i stedet for at sige: "Agenten virker okay."
Du siger: "Overholdelse af politikker er på 98%, men Personalisering faldt til 87%— specifikt anvendes tenurebaserede politikker ikke. Vi har identificeret den egentlige årsag og iterererer."