Velg evalueringsmetoder

Når du lager testsett, velg mellom ulike testmetoder for å evaluere agentens svar. Hver testmetode har sine egne styrker og passer til ulike typer evalueringer.

Testmetode	Målepunkter	Type testsett	Poengberegning	Konfigurasjoner
Generell kvalitet	Hvor god er svaret(e) til et testtilfelle basert på spesifikke kvaliteter	Enkelt svar eller samtale	Fikk poeng av 100%	Ingen
Sammenlign betydning	Hvor godt betydningen av testtilfellets svar stemmer overens med det forventede svaret	Ett svar	Fikk poeng av 100%	Bestått, forventet svar
Bruk av verktøy	Om testtilfellet brukte alle eller noen av de forventede ressursene	Ett svar	Bestått/ikke bestått.	Forventede kapasiteter
Nøkkelordmatch	Om testtilfellet brukte alle eller noen av de forventede nøkkelordene eller frasene	Enkelt svar eller samtale	Bestått/ikke bestått.	Forventede nøkkelord eller fraser
Tekstlikhet	Hvor godt teksten i testtilfellets svar stemmer overens med det forventede svaret	Ett svar	Fikk poeng av 100%	Bestått, forventet svar
Eksakt samsvar	Om testtilfellets svar samsvarer nøyaktig med det forventede svaret	Ett svar	Bestått/ikke bestått.	Forventet svar
Egendefinert	Om svaret på testtilfellet oppfyller de definerte kriteriene eller forventningene dine.	Enkelt svar eller samtale	Pass/fail (passerer de definerte etikettvilkårene)	Navn, evalueringsinstruksjoner, etiketter

Legge til en testmetode

Når du oppretter eller redigerer et testsett, velg Legg til testmetode.
Velg alle metodene du vil teste med, og velg deretter OK. Du kan legge til flere metoder.
1. Noen metoder krever bestått. Beståttresultatet avgjør hvilken poengsum som resulterer i bestått eller stryk. Sett poengsummen, og velg OK.
2. Noen testmetoder krever flere kriterier.
Velg Lagre for å lagre endringene dine i testsettet.

Velg en eksisterende testmetode for å redigere kriteriene for den metoden, eller slett den metoden.

Generell kvalitet

Tilgjengelig for testsett for enkeltsvar og samtaler. Generell kvalitet hjelper deg å avgjøre om agentens svar oppfyller dine standarder. Den bruker en stor språkmodell (LLM) til å vurdere hvor effektivt en agent svarer på brukerspørsmål.

Generell kvalitet er spesielt nyttig når det ikke forventes noe eksakt svar. Det tilbyr en fleksibel og skalerbar måte å evaluere svar basert på de hentede dokumentene og samtaleflyten.

Den bruker disse nøkkelkriteriene og bruker en konsekvent prompt for å styre poenggivningen:

Relevans: I hvilken grad agentens svar tar for seg spørsmålet. For eksempel forblir agentens svar på emnet og svarer direkte på spørsmålet?
Grunnfesting: I hvilken grad agentens svar er basert på den angitte konteksten. Henviser for eksempel agentens svar til eller er avhengig av informasjonen som er gitt i konteksten, i stedet for å innføre urelatert eller ustøttet informasjon?
Fullstendighet: I hvilken grad agentens svar gir all nødvendig informasjon. Dekker agentens svar for eksempel alle aspekter av spørsmålet og gir tilstrekkelige detaljer?
Avholdenhet: Om agenten forsøkte å svare på spørsmålet.

For å regnes som høy kvalitet må et svar oppfylle alle disse nøkkelkriteriene. Hvis ett kriterium ikke er oppfylt, blir responsen flagget for forbedring. Denne poengsummetoden sikrer at bare svar som er både fullstendige og godt støttet, får toppkarakterer. Svar som er ufullstendige eller mangler støttebevis, får derimot lavere poengsummer.

Når du legger til eller redigerer testmetoder, velg Generell kvalitet. Alle testsett starter med denne metoden som standard.

Du trenger ikke å legge til forventede svar i testtilfeller for å fullføre en generell kvalitetsvurdering.

Notat

Å redusere antall kunnskapskilder for agenten er ikke garantert å forbedre generell kvalitetsgradering i agentevaluering. Denne begrensningen finnes fordi den hentede kunnskapen (kunnskapen modellen mener er relevant for et bestemt testtilfelle) kan være for stor.

Sammenlign betydning

Tilgjengelig for testsett med ett svar. Sammenligning av mening evaluerer hvor godt agentens svar gjenspeiler den tiltenkte betydningen av det forventede svaret. I stedet for å fokusere på nøyaktig formulering, bruker den intensjonslikhet, altså at den sammenligner ideene og meningen bak ordene for å vurdere hvor nært svaret samsvarer med det du forventet.

Akkurat som generell kvalitet er sammenligningsmening spesielt nyttig når det ikke finnes noe eksakt svar som forventes. Det tilbyr en fleksibel og skalerbar måte å evaluere svar basert på de hentede dokumentene og samtaleflyten.

Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar. Standard bestått poengsummen er 50. Testmetoden for sammenligning av mening er nyttig når et svar kan uttrykkes på forskjellige riktige måter, men den generelle betydningen eller intensjonen må fortsatt komme gjennom.

Når du legger til eller redigerer testmetoder, velg Sammenlign betydning.
Sett bestått poengsum for denne metoden.
Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
1. Velg et testtilfelle.
2. Legg til svaret du forventer.
3. Velg Bruk for å lagre det forventede svaret.
4. Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.

Bruk av verktøy

Tilgjengelig for testsett med ett svar. Verktøybrukstester hvis agenten brukte bestemte verktøy eller emner til å generere et svar. Hvis den gjorde det, består den. Hvis den ikke gjør det, mislykkes den.

Når du legger til eller redigerer testmetoder, velger du Verktøybruk.
Legg til de forventede verktøyene eller temaene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
1. Velg et testtilfelle. Hvis du vil legge til de samme forventede verktøyene og emnene for alle testtilfeller, velger du Rediger-ikonet i kolonneoverskriften Verktøy .
2. Velg emnene eller verktøyene du forventer at agenten skal bruke for dette testtilfellet, i velg verktøy-panelet .
3. Velg OK.
4. Velg Lagre for å lagre endringer.
5. Gjenta for alle testtilfellene du vil teste for verktøybruk.

Nøkkelordmatch

Tilgjengelig for testsett for enkeltsvar og samtaler. Nøkkelordmatch sjekker om agentens svar inneholder noen eller alle ordene eller uttrykkene fra det forventede svaret du definerer. Hvis den gjør den, består den. Hvis den ikke gjør det, mislykkes den.

Du kan velge om et pass krever noen av nøkkelordene eller alle sammen. Å velge Any betyr at hvis minst ett ord eller uttrykk stemmer, består testcaset. Å velge Alle betyr at alle forventede ord eller uttrykk må matche for at et testtilfelle skal bestå.

Når du legger til eller redigerer testmetoder, velg Nøkkelordmatch.
Velg om et testtilfelle trenger at noen eller alle nøkkelord skal matche.
Legg til de forventede nøkkelordene. Ethvert testtilfelle uten forventede nøkkelord gir et ugyldig resultat for denne testmetoden.
1. Velg et testtilfelle.
2. Legg til et nøkkelord eller uttrykk du forventer at svaret på denne saken skal ha, i ruten Rediger testtilfelle .
3. Velg + Legg til for å legge til flere nøkkelord eller uttrykk. Hvis du vil fjerne et nøkkelord eller uttrykk, velger du Slett-ikonet .
4. Velg Bruk for å lagre de forventede nøkkelordene.
5. Gjenta for alle testtilfellene du vil teste for nøkkelordmatching.

Tekstlikhet

Testmetoden for tekstlikhet sammenligner likheten med agentens svar på de forventede svarene du definerer i testsettet. Bruk denne testmetoden når et riktig svar må samsvare nøyaktig med det forventede svaret, eller nesten nøyaktig, i både ordlyden og setningsstrukturen. Presis ordlyd er for eksempel ofte nødvendig når et juridisk dokument genereres. Denne testen brukes vanligvis sammen med Sammenligningsmetode som sikrer likhet av mening, men sikrer ikke likhet med ordlyden. Det er også forskjellig fra testmetoden keyword match , som sikrer tilstedeværelsen av visse termer, men sikrer ikke likhet med konstruksjonen. Hvis hele svaret må samsvare nøyaktig med hele det forventede svaret, bruker du testmetoden Nøyaktig treff i stedet.

En cosinus likhetsmetrikk vurderer hvor lik agentens svar er til ordlyden i det forventede svaret og bestemmer en poengsum. Poengsummen varierer fra 0 til 1, der 1 betyr at svaret samsvarer tett og 0 betyr at det ikke gjør det. Du kan angi en terskel for bestått poengsum for å avgjøre hva som utgjør en bestått poengsum for et svar.

Når du legger til eller redigerer testmetoder, velg tekstlikhet.
Sett bestått poengsum for denne metoden.
Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
1. Velg et testtilfelle.
2. Legg til svaret du forventer.
3. Velg Bruk for å lagre det forventede svaret.
4. Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.

Eksakt samsvar

Tilgjengelig for testsett med ett svar. Nøyaktig samsvar kontrollerer om agentens svar samsvarer nøyaktig med det forventede svaret i testen: tegn for tegn, ord for ord. Hvis den er det samme, består den. Hvis noe er annerledes, mislykkes det. Nøyaktig treff er nyttig for korte, presise svar, for eksempel tall, koder eller faste uttrykk. Det passer ikke til svar som personer kan uttrykke på flere riktige måter.

Når du legger til eller redigerer testmetoder, velg Eksakt match.
Legg til de forventede svarene. Ethvert testtilfelle uten forventede svar gir et ugyldig resultat for denne testmetoden.
1. Velg et testtilfelle.
2. Legg til svaret du forventer.
3. Velg Bruk for å lagre det forventede svaret.
4. Gjenta for alle testtilfellene du ønsker å teste ved å bruke denne metoden.

Tilpasset

Egendefinert er en testmetode som kan tilpasses. Den lar deg teste og merke agentsvar ved hjelp av dine egne kriterier. Du kan for eksempel opprette en samsvarstest for en HR-agent for å merke testsvar som enten kompatible eller ikke kompatible med din beskrivelse av HR-samsvar.

En egendefinert test har to komponenter du kan konfigurere:

Evalueringsinstruksjoner: Beskriver målet du vil utføre med denne testen. Hva vil du at testen skal finne ut om agentens svar?

Gode evalueringsinstruksjoner bør:

Vær målorientert.
Bruk bare de tillatte tegnene.
Bruk punktpunkter og overskrifter for organisasjonen.

Eksempel:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etiketter: Beskriver resultatet som er tilordnet hvert svar ved hjelp av den egendefinerte testen. Etiketter har også bestått/stryk-vurderinger, som teller mot beståttraten for denne testmetoden.

Etiketter har et navn og en beskrivelse. En god beskrivelse:

Er kortfattet.
Inneholder attributtene du leter etter i samsvarende svar.

En strategi for etiketter er å ha to: ett er svar som oppfyller kriteriene du leter etter, og den andre for svar som ikke gjør det. En egendefinert test for samsvarssamsvar for HR-policyer kan for eksempel ha samsvarende og ikke-kompatible som etiketter.

Når du legger til eller redigerer testmetoder, velger du Egendefinert.
Skriv inn et navn for denne egendefinerte testen.
Legg til evalueringsinstruksjoner.
Legg til to eller flere etiketter. Hver etikett har et navn og en beskrivelse.

Hvis du vil legge til flere etiketter, velger du Legg til etikett.

Etiketttitler kan bare bruke bokstaver, tall, mellomrom, bindestrek -, understrekingstegn _, skråstrek /, ampersand &, plusstegn +og punktum ..
Angi resultatet Pass eller Fail for hver etikett.
Velg OK.

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2026-05-19