Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]
I Copilot Studio kan du oprette et testsæt af testcases for at evaluere dine agenters præstation. Med testcases kan du simulere scenarier i den virkelige verden for din agent, så du kan måle nøjagtigheden, relevansen og kvaliteten af svar på de spørgsmål, som agenten bliver bedt om, baseret på de oplysninger, som agenten kan få adgang til. Ved at bruge resultaterne fra testsættet kan du optimere din agents adfærd og validere, at din agent opfylder dine forretnings- og kvalitetskrav.
Important
Denne artikel indeholder dokumentation til prøveversionen af Microsoft Copilot Studio og kan ændres.
Forhåndsversionsfunktionerne er ikke beregnet til produktionsformål og kan have begrænset funktionalitet. Disse funktioner er tilgængelige før en officiel version, så du kan få tidlig adgang og give feedback.
Hvis du bygger en produktionsklar agent, skal du se Oversigt over Microsoft Copilot Studio.
Testmetoder
Når du opretter testsæt, kan du vælge mellem forskellige testmetoder til at evaluere din agents svar: tekstmatch, lighed og kvalitet. Hver testmetode har sine egne styrker og er velegnet til forskellige typer evalueringer.
Testmetoder til tekstmatch
Testmetoder til tekstmatch sammenligner agentens svar med forventede svar, som du definerer i testsættet. Der er to matchtest:
Nøjagtigt match kontrollerer, om agentens svar stemmer nøjagtigt overens med det forventede svar i testen: tegn for tegn, ord for ord. Hvis det er det samme, det passerer. Hvis noget er forskelligt, mislykkes det. Nøjagtigt match er nyttigt til korte, præcise svar, f.eks. tal, koder eller faste udtryk. Det passer ikke til svar, som folk kan udtrykke på flere korrekte måder.
Delvist match tjekker, om agentens svar indeholder nogle af de ord eller sætninger fra det forventede svar, som du definerer. Hvis det gør, det passerer. Hvis det ikke gør det, mislykkes det. Delvist match er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men nøglebegreber eller idéer skal stadig medtages i svaret.
Lighedstestmetoder
Lighedstestmetoden sammenligner ligheden mellem agentens svar og de forventede svar, der er defineret i testsættet. Det er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.
Den bruger en metrikværdi for cosinus lighed til at vurdere, hvordan agentens svar svarer til formuleringen og betydningen af det forventede svar og bestemmer en score. Scoren ligger mellem 0 og 1, hvor 1 angiver, at svaret stemmer tæt overens, og 0 angiver, at det ikke er. Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar.
Kvalitetstestmetoder
Kvalitetstesten hjælper dig med at beslutte, om din agents svar opfylder dine standarder. Denne fremgangsmåde sikrer, at resultaterne er både pålidelige og nemme at forklare.
Disse metoder bruger en stor sprogmodel (LLM) til at vurdere, hvor effektivt en agent besvarer brugerspørgsmål. De er især nyttige, når der ikke forventes et præcist svar, hvilket giver en fleksibel og skalerbar måde at evaluere svar på baseret på de hentede dokumenter og flowet i samtalen.
Kvalitetstesten omfatter to testmetoder:
Generel kvalitet evaluerer agentsvar. Den bruger disse nøglekriterier og anvender en konsekvent prompt til at styre scoringen:
Relevans: I hvilket omfang agentens svar behandler spørgsmålet. Bliver agentens svar f.eks. ved med at være på emnet og besvarer spørgsmålet direkte?
Jordforbindelse: I hvilket omfang agentens svar er baseret på den angivne kontekst. Anvender agentens svarreference f.eks. de oplysninger, der er angivet i konteksten, i stedet for at introducere ikke-relaterede eller ikke-understøttede oplysninger?
Fuldstændighed: I hvilket omfang agentens svar giver alle nødvendige oplysninger. Dækker agentens svar f.eks. alle aspekter af spørgsmålet og giver tilstrækkelige detaljer?
Undladelse: Hvorvidt agenten forsøgte at besvare spørgsmålet.
For at blive betragtet som høj kvalitet skal et svar opfylde alle disse nøglekriterier. Hvis et kriterium ikke opfyldes, markeres svaret for forbedring. Denne scoremetode sikrer, at det kun er svar, der både er komplette og velunderstøttede, der modtager topmærker. I modsætning hertil modtager svar, der er ufuldstændige eller mangler dokumentation, lavere scorer.
Sammenligning af betydning evaluerer, hvor godt agentens svar afspejler den tilsigtede betydning af det forventede svar. I stedet for at fokusere på præcis formulering bruger den intentionslighed, hvilket betyder, at den sammenligner idéerne og betydningen bag ordene for at vurdere, hvor tæt svaret stemmer overens med det forventede.
Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar. Standardbeståelsesscoren er 50. Sammenligning betyder testmetode er nyttig, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.
Tærskler og gennemløbshastigheder
Succesen af en testcase afhænger af den testmetode, du vælger, og den tærskel, du angiver for overførsel af scorer.
Hver testmetode, undtagen nøjagtigt match, giver en numerisk score baseret på et sæt evalueringskriterier, der afspejler, hvor godt agentens svar opfylder disse kriterier. Tærsklen er den afskæringsscore, der adskiller overført fra ikke overført. Du kan angive beståelsesscores for lighed og sammenligne betydning i testcases.
Nøjagtigt match er en streng testmetode, der ikke giver en numerisk score. Svaret skal stemme nøjagtigt overens for at bestå. Når du vælger tærsklen for en testcase, bestemmer du, hvor streng eller mild evalueringen er. Hver testmetode evaluerer agentens svar forskelligt, så det er vigtigt at vælge den, der passer bedst til dine evalueringskriterier.