Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
[Denne artikkelen inneholder dokumentasjon for forhåndsversjonen og kan bli endret.]
Når du lager testsett, kan du velge mellom ulike testmetoder for å evaluere agentens svar: tekstmatch,likhet og kvalitet. Hver testmetode har sine egne styrker og er egnet for ulike typer evalueringer.
Testmetoder for teksttreff
Testmetoder for tekstsvar sammenligner agentens svar med forventede svar som du definerer i testsettet. Det finnes to samsvarstester:
Nøyaktig samsvar kontrollerer om agentens svar samsvarer nøyaktig med det forventede svaret i testen: tegn for tegn, ord for ord. Hvis det er det samme, passerer det. Hvis noe er annerledes, mislykkes det. Nøyaktig treff er nyttig for korte, presise svar, for eksempel tall, koder eller faste uttrykk. Det passer ikke til svar som personer kan uttrykke på flere riktige måter.
Nøkkelordmatch sjekker om agentens svar inneholder noen av ordene eller frasene fra det forventede svaret du definerer. Hvis den gjør den, består den. Hvis den ikke gjør det, mislykkes den. Nøkkelordmatch er nyttig når et svar kan formuleres på forskjellige riktige måter, men nøkkelbegreper eller ideer må fortsatt inkluderes i svaret.
Testmetoder for likhet
Likhetstestmetoden sammenligner likheten mellom agentens svar og de forventede svarene du definerer i testsettet ditt. Det er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.
Den bruker en cosinus likhetsmetrikk for å vurdere hvor lik agentens svar er til ordlyden og betydningen av det forventede svaret og bestemmer en poengsum. Poengsummen varierer mellom 0 og 1, der 1 angir at svaret samsvarer tett, og 0 indikerer at det ikke gjør det. Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar.
Testmetoder for kvalitet
Testmetoder for kvalitet hjelper deg med å avgjøre om agentens svar oppfyller standardene dine. Denne tilnærmingen sikrer at resultatene er både pålitelige og enkle å forklare.
Disse metodene bruker en stor språkmodell (LLM) til å vurdere hvor effektivt en agent svarer på brukerspørsmål. De er spesielt nyttige når det ikke er forventet noe nøyaktig svar og tilbyr en fleksibel og skalerbar måte å evaluere svar på basert på de hentede dokumentene og samtaleflyten.
Testmetoder for kvalitet inkluderer to testmetoder:
Generell kvalitet evaluerer agentsvar. Den bruker disse nøkkelkriteriene og bruker en konsekvent prompt for å styre poenggivningen:
Relevans: I hvilken grad agentens svar tar for seg spørsmålet. For eksempel forblir agentens svar på emnet og svarer direkte på spørsmålet?
Grunnfesting: I hvilken grad agentens svar er basert på den angitte konteksten. Henviser for eksempel agentens svar til eller er avhengig av informasjonen som er gitt i konteksten, i stedet for å innføre urelatert eller ustøttet informasjon?
Fullstendighet: I hvilken grad agentens svar gir all nødvendig informasjon. Dekker agentens svar for eksempel alle aspekter av spørsmålet og gir tilstrekkelige detaljer?
Avholdenhet: Om agenten forsøkte å svare på spørsmålet.
For å regnes som høy kvalitet må et svar oppfylle alle disse nøkkelkriteriene. Hvis ett kriterium ikke er oppfylt, blir responsen flagget for forbedring. Denne poengsummetoden sikrer at bare svar som er både fullstendige og godt støttet, får toppkarakterer. Svar som er ufullstendige eller mangler støttebevis, får derimot lavere poengsummer.
Sammenligning av mening evaluerer hvor godt agentens svar gjenspeiler den tiltenkte betydningen av det forventede svaret. I stedet for å fokusere på nøyaktig formulering, bruker den intensjonslikhet, altså at den sammenligner ideene og meningen bak ordene for å vurdere hvor nært svaret samsvarer med det som ble forventet.
Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar. Standard beståttscore er 50. Testmetoden for sammenligning av mening er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.
Terskler og beståttfrekvenser
Vellykket testtilfelle avhenger av testmetoden du velger, og terskelen du angir for bestått poengsummer.
Hver testmetode, bortsett fra eksakt match, gir en numerisk poengsum basert på et sett med evalueringskriterier. Denne poengsummen gjenspeiler hvor godt agentens svar oppfyller disse kriteriene. Terskelen er avskjæringspoengsummen som skiller bestått fra ikke bestått. Du kan angi beståttpoengsummer for testsaker for likhet og sammenligne av mening.
Eksakt match er en streng testmetode som ikke gir en numerisk poengsum. Svaret må stemme nøyaktig for å bestå. Ved å velge terskelen for en testsak bestemmer du hvor streng eller mild evalueringen er. Hver testmetode evaluerer agentens svar forskjellig, så det er viktig å velge den som passer best til evalueringsvilkårene.