Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]
Efterhånden som AI-agenter påtager sig kritiske roller i forretningsprocesser, bliver behovet for pålidelig, gentagelig testning essentiel. Agentevaluering lader dig generere tests , der simulerer virkelige scenarier for din agent. Disse tests dækker flere spørgsmål hurtigere end manuel, sag-til-sag testning. Derefter kan du måle nøjagtigheden, relevansen og kvaliteten af svarene på de spørgsmål, agenten bliver stillet, baseret på de oplysninger, agenten kan få adgang til. Ved at bruge resultaterne fra testsættet kan du optimere din agents adfærd og validere, at din agent opfylder dine forretnings- og kvalitetskrav.
Vigtigt
Denne artikel indeholder dokumentation til prøveversionen af Microsoft Copilot Studio og kan ændres.
Forhåndsversionsfunktionerne er ikke beregnet til produktionsformål og kan have begrænset funktionalitet. Disse funktioner er tilgængelige før en officiel version, så du kan få tidlig adgang og give feedback.
Hvis du bygger en produktionsklar agent, skal du se Oversigt over Microsoft Copilot Studio.
Hvorfor bruge automatiseret testning?
Agentevaluering giver automatiseret, struktureret testning. Det hjælper med at opdage problemer tidligt, mindsker risikoen for dårlige svar og opretholder kvaliteten, efterhånden som agenten udvikler sig. Denne proces bringer en automatiseret, gentagelig form for kvalitetssikring til agenttestning. Det sikrer, at agenten opfylder din virksomheds nøjagtigheds- og pålidelighedsstandarder og giver gennemsigtighed i, hvordan den fungerer. Det har andre styrker end at teste ved at bruge testchatten.
Agentvurdering måler korrekthed og ydeevne, ikke AI-etik eller sikkerhedsproblemer. En agent kan bestå alle evalueringstests, men alligevel for eksempel give et upassende svar på et spørgsmål. Kunder bør stadig bruge ansvarlige AI-anmeldelser og indholdssikkerhedsfiltre; Evalueringer erstatter ikke disse anmeldelser og filtre.
Hvordan agentevaluering fungerer
Copilot Studio bruger et testcase til hver agentvurdering. Et testtilfælde er en enkelt besked eller et spørgsmål, der simulerer, hvad en bruger ville spørge din agent om. En testsag kan også indeholde det svar, du forventer , at din agent vil svare. For eksempel:
Spørgsmålet: Hvad er dine åbningstider?
Den forventede respons: Vi har åbent fra kl. 9 til 17 fra mandag til fredag.
Ved at bruge agentevaluering kan du generere, importere eller manuelt skrive en gruppe testcases. Denne gruppe af testtilfælde kaldes et testsæt. Et testsæt giver dig mulighed for at:
Kør flere testcases, der dækker et bredt spektrum af funktioner på én gang, i stedet for at stille din agent ét spørgsmål ad gangen.
Analyser din agents præstation med en letfordøjelig samlet score og zoom også ind på individuelle testcases.
Test ændringer til dine agenter ved at bruge det samme testsæt, så du har en objektiv standard til at måle og sammenligne ændringer i præstation.
Opret hurtigt nye testsæt eller modificerer eksisterende for at dække ændrede agenters kapaciteter eller krav.
Testsættet indeholder også de testmetoder , du ønsker at bruge. Du kan måle din mæglers præstation ud fra:
Præcist match eller nøgleordsmatch: Hvor tæt din agents svar på et spørgsmål matcher dit forventede svar.
Semantisk lighed: Hvor tæt din agents svar matcher idéen eller hensigten med dit forventede svar.
Kvalitet: Hvor godt din mæglers svar fungerer ved hjælp af en LLM-baseret vurdering.
Du kan også vælge en brugerprofil, der fungerer som den bruger, der sender spørgsmålene. Agenten kan være konfigureret til at reagere på forskellige brugere på forskellige måder eller tillade adgang til ressourcer på forskellige måder.
Når du vælger et testsæt og kører en agentevaluering, sender Copilot Studio spørgsmålene i testcases, registrerer agentens svar, sammenligner disse svar med forventede svar eller en kvalitetsstandard og tildeler en score til hver testcase. Du kan også se detaljer, transkript og aktivitetskort for hver testcase samt hvilke ressourcer din agent brugte til at skabe svaret.
Testchat versus agentevaluering
Hver testmetode giver dig forskellige indsigter i din agents kvaliteter og adfærd:
Modtager og besvarer ét spørgsmål ad gangen. Det er svært at gentage de samme tests flere gange.
Det giver dig mulighed for at teste en hel session med flere beskeder.
Giver dig mulighed for at interagere med din agent som bruger ved at bruge en chatgrænseflade.
Agentvurdering:
Kan oprette og køre flere testcases på én gang. Du kan gentage tests ved at bruge det samme testsæt.
Kan kun teste ét spørgsmål og ét svar pr. testcase. Det tester ikke en hel samtalesession.
Vælg forskellige brugerprofiler for at simulere forskellige brugere uden selv at skulle gennemføre interaktionerne.
Når du tester en agent, brug både testchatten og agentvurderingen for at få et fuldt billede af din agent.