Del via


Vælg evalueringsmetoder

[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]

Når du opretter testsæt, kan du vælge mellem forskellige testmetoder til at evaluere din agents svar: tekstmatch, lighed og kvalitet. Hver testmetode har sine egne styrker og er velegnet til forskellige typer evalueringer.

Testmetoder til tekstmatch

Testmetoder til tekstmatch sammenligner agentens svar med forventede svar, som du definerer i testsættet. Der er to matchtest:

Nøjagtigt match kontrollerer, om agentens svar stemmer nøjagtigt overens med det forventede svar i testen: tegn for tegn, ord for ord. Hvis det er det samme, det passerer. Hvis noget er forskelligt, mislykkes det. Nøjagtigt match er nyttigt til korte, præcise svar, f.eks. tal, koder eller faste udtryk. Det passer ikke til svar, som folk kan udtrykke på flere korrekte måder.

Keyword match tjekker, om agentens svar indeholder nogle af de ord eller sætninger fra det forventede svar, du definerer. Hvis det gør, det passerer. Hvis det ikke gør det, mislykkes det. Nøgleordsmatch er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men nøgleord eller idéer stadig skal inkluderes i svaret.

Lighedstestmetoder

Lighedstestmetoden sammenligner ligheden mellem agentens svar og de forventede svar, du definerer i dit testsæt. Det er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.

Den bruger en metrikværdi for cosinus lighed til at vurdere, hvordan agentens svar svarer til formuleringen og betydningen af det forventede svar og bestemmer en score. Scoren ligger mellem 0 og 1, hvor 1 angiver, at svaret stemmer tæt overens, og 0 angiver, at det ikke er. Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar.

Kvalitetstestmetoder

Kvalitetstesten hjælper dig med at beslutte, om din agents svar opfylder dine standarder. Denne fremgangsmåde sikrer, at resultaterne er både pålidelige og nemme at forklare.

Disse metoder bruger en stor sprogmodel (LLM) til at vurdere, hvor effektivt en agent besvarer brugerspørgsmål. De er især nyttige, når der ikke forventes et præcist svar, hvilket giver en fleksibel og skalerbar måde at evaluere svar på baseret på de hentede dokumenter og flowet i samtalen.

Kvalitetstesten omfatter to testmetoder:

Generel kvalitet evaluerer agentsvar. Den bruger disse nøglekriterier og anvender en konsekvent prompt til at styre scoringen:

  • Relevans: I hvilket omfang agentens svar behandler spørgsmålet. Bliver agentens svar f.eks. ved med at være på emnet og besvarer spørgsmålet direkte?

  • Jordforbindelse: I hvilket omfang agentens svar er baseret på den angivne kontekst. Anvender agentens svarreference f.eks. de oplysninger, der er angivet i konteksten, i stedet for at introducere ikke-relaterede eller ikke-understøttede oplysninger?

  • Fuldstændighed: I hvilket omfang agentens svar giver alle nødvendige oplysninger. Dækker agentens svar f.eks. alle aspekter af spørgsmålet og giver tilstrækkelige detaljer?

  • Undladelse: Hvorvidt agenten forsøgte at besvare spørgsmålet.

For at blive betragtet som høj kvalitet skal et svar opfylde alle disse nøglekriterier. Hvis et kriterium ikke opfyldes, markeres svaret for forbedring. Denne scoremetode sikrer, at det kun er svar, der både er komplette og velunderstøttede, der modtager topmærker. I modsætning hertil modtager svar, der er ufuldstændige eller mangler dokumentation, lavere scorer.

Sammenligning af betydning evaluerer, hvor godt agentens svar afspejler den tilsigtede betydning af det forventede svar. I stedet for at fokusere på præcis formulering bruger den intentionslighed, hvilket betyder, at den sammenligner idéerne og betydningen bag ordene for at vurdere, hvor tæt svaret stemmer overens med det forventede.

Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar. Standardbeståelsesscoren er 50. Sammenligning betyder testmetode er nyttig, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.

Tærskler og gennemløbshastigheder

Succesen af en testcase afhænger af den testmetode, du vælger, og den tærskel, du angiver for overførsel af scorer.

Hver testmetode, undtagen det præcise match, giver en numerisk score baseret på et sæt evalueringskriterier. Denne score afspejler, hvor godt agentens svar opfylder disse kriterier. Tærsklen er den afskæringsscore, der adskiller overført fra ikke overført. Du kan angive beståelsesscores for lighed og sammenligne betydning i testcases.

Præcist match er en streng testmetode, der ikke giver en numerisk score. Svaret skal matche præcist for at bestå. Når du vælger tærsklen for en testcase, bestemmer du, hvor streng eller mild evalueringen er. Hver testmetode evaluerer agentens svar forskelligt, så det er vigtigt at vælge den, der passer bedst til dine evalueringskriterier.