Del via


Vælg evalueringsmetoder

[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]

Når du opretter testsæt, skal du vælge mellem forskellige testmetoder for at evaluere din agents svar. Hver testmetode har sine egne styrker og passer til forskellige typer evalueringer.

Testmetode Målinger Scoring Konfigurationer
Generel kvalitet Hvor godt er testcases svar baseret på specifikke kvaliteter Scoret ud af 100% None
Sammenlign betydning Hvor godt betydningen af testtilfældets svar matcher det forventede svar Scoret ud af 100% Bestået score, forventet svar
Kapacitetsanvendelse Om testsagen brugte de forventede ressourcer Bestået/ikke bestået Forventede kapaciteter
Nøgleordsmatch Om testsagen brugte alle eller nogle af de forventede nøgleord eller fraser Bestået/ikke bestået Forventede nøgleord eller fraser
Tekstlighed Hvor godt teksten i testtilfældets svar matcher det forventede svar Scoret ud af 100% Bestået score, forventet svar
Præcist match Om testtilfældets svar præcist matcher det forventede svar Bestået/ikke bestået Forventet svar

For at tilføje testmetoder til et testsæt:

  1. Når du opretter eller redigerer et testsæt, vælg Tilføj testmetode.
  2. Vælg alle de metoder, du vil teste med, og vælg derefter OK. Du kan tilføje flere metoder.
  3. Nogle metoder kræver en bestået score. Beståelsesscoren bestemmer, hvilken score der resulterer i bestået eller dumpet. Sæt scoren, og vælg derefter OK.
  4. Nogle testmetoder kræver yderligere kriterier.
  5. Vælg Save for at gemme dine ændringer i testsættet.

Vælg en eksisterende testmetode for at redigere den metodes kriterier eller slet den metode.

Generel kvalitet

Generel kvalitet hjælper dig med at afgøre, om din agents svar lever op til dine standarder. Den bruger en sprogmodel til at vurdere, hvor effektivt en agent besvarer brugerspørgsmål.

Generel kvalitet er især nyttig, når der ikke forventes noget præcist svar. Det tilbyder en fleksibel og skalerbar måde at evaluere svar baseret på de hentede dokumenter og samtaleflowet.

Den bruger disse nøglekriterier og anvender en konsekvent prompt til at styre scoringen:

  • Relevans: I hvilket omfang agentens svar behandler spørgsmålet. Bliver agentens svar f.eks. ved med at være på emnet og besvarer spørgsmålet direkte?

  • Jordforbindelse: I hvilket omfang agentens svar er baseret på den angivne kontekst. Anvender agentens svarreference f.eks. de oplysninger, der er angivet i konteksten, i stedet for at introducere ikke-relaterede eller ikke-understøttede oplysninger?

  • Fuldstændighed: I hvilket omfang agentens svar giver alle nødvendige oplysninger. Dækker agentens svar f.eks. alle aspekter af spørgsmålet og giver tilstrækkelige detaljer?

  • Undladelse: Hvorvidt agenten forsøgte at besvare spørgsmålet.

For at blive betragtet som høj kvalitet skal et svar opfylde alle disse nøglekriterier. Hvis et kriterium ikke opfyldes, markeres svaret for forbedring. Denne scoremetode sikrer, at det kun er svar, der både er komplette og velunderstøttede, der modtager topmærker. I modsætning hertil modtager svar, der er ufuldstændige eller mangler dokumentation, lavere scorer.

Når du tilføjer eller redigerer testmetoder, vælg Generel kvalitet. Alle testsæt starter som standard med denne metode.

Du behøver ikke tilføje forventede svar til testcases for at gennemføre en generel kvalitetsvurdering.

Sammenlign betydning

Sammenligning af betydning evaluerer, hvor godt agentens svar afspejler den tilsigtede betydning af det forventede svar. I stedet for at fokusere på præcise formuleringer bruger den intentionslighed, hvilket betyder, at den sammenligner idéerne og betydningen bag ordene for at vurdere, hvor tæt svaret stemmer overens med det, du forventede.

Ligesom generel kvalitet er sammenligningsbetydning især nyttig, når der ikke forventes noget præcist svar. Det tilbyder en fleksibel og skalerbar måde at evaluere svar baseret på de hentede dokumenter og samtaleflowet.

Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar. Standardbeståelsesscoren er 50. Sammenligning betyder testmetode er nyttig, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.

  1. Når du tilføjer eller redigerer testmetoder, vælg Sammenlign betydning.

  2. Sæt beståelsesscoren for denne metode.

  3. Tilføj de forventede svar. Enhver testcase uden en giver et ugyldigt resultat for denne testmetode.

    1. Vælg et testtilfælde.
    2. Tilføj det svar, du forventer.
    3. Vælg Anvend for at gemme det forventede svar.
    4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.

Kapacitetsanvendelse

Evnebrug tester, hvis agenten har brugt specifikke værktøjer eller emner til at generere et svar. Hvis det gjorde, gik det igennem. Hvis det ikke gør det, mislykkes det.

Du kan vælge, om et bestået program kræver nogle af værktøjerne eller emnerne eller dem alle . At vælge Any betyder, at hvis agenten kaldte mindst én, består testtilfældet. At vælge Alle betyder, at alle forventede værktøjer eller emner skal matche for at testcase kan bestå det.

  1. Når du tilføjer eller redigerer testmetoder, vælg kapabilitetsbrug.

  2. Vælg om et testtilfælde skal have Any eller All værktøjer eller emner til at matche.

  3. Tilføj de forventede værktøjer eller emner. Enhver testcase uden en giver et ugyldigt resultat for denne testmetode.

    1. Vælg et testtilfælde.
    2. Vælg de funktioner, du forventer, at det pågældende cases svar har.
    3. Vælg OK.
    4. Vælg Anvend for at gemme ændringer.
    5. Gentag for alle de testcases, du vil teste for kapacitetsbrug.
  4. Sæt beståelsesscoren for denne metode.

  5. Tilføj de forventede svar. Enhver testcase uden en giver et ugyldigt resultat for denne testmetode.

    1. Vælg et testtilfælde.
    2. Tilføj de værktøjer eller emner, du forventer.
    3. Vælg Anvendelse for at gemme.
    4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.

Nøgleordsmatch

Keyword match tjekker, om agentens svar indeholder nogle eller alle de ord eller sætninger fra det forventede svar, som du definerer. Hvis det gør, det passerer. Hvis det ikke gør det, mislykkes det.

Du kan vælge, om et pas kræver et af nøgleordene eller alle af dem. At vælge Any betyder, at hvis mindst ét ord eller en sætning matcher, består testtilfældet. At vælge Alle betyder, at alle forventede ord eller vendinger skal matche, for at et testtilfælde kan bestå det.

Nøgleordsmatch er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men nøgleord eller idéer stadig skal inkluderes i svaret.

  1. Når du tilføjer eller redigerer testmetoder, vælg Keyword match.

  2. Vælg om et testtilfælde kræver, at Enhver eller Alle nøgleord matcher.

  3. Tilføj de forventede nøgleord. Enhver testcase uden en giver et ugyldigt resultat for denne testmetode.

    1. Vælg et testtilfælde.
    2. Tilføj et nøgleord eller en sætning, du forventer, at det pågældende tilfælde skal have svaret på.
    3. Vælg + at tilføje flere nøgleord eller fraser. Vælg Slet
    4. Vælg Anvend for at gemme de forventede nøgleord.
    5. Gentag for alle testcases, du vil teste for søgeordsmatch.

Tekstlighed

Lighedstestmetoden sammenligner ligheden mellem agentens svar og de forventede svar, du definerer i dit testsæt. Det er nyttigt, når et svar kan formuleres på forskellige korrekte måder, men den overordnede betydning eller hensigt skal stadig gennemgås.

Den bruger en metrikværdi for cosinus lighed til at vurdere, hvordan agentens svar svarer til formuleringen og betydningen af det forventede svar og bestemmer en score. Scoren ligger mellem 0 og 1, hvor 1 angiver, at svaret stemmer tæt overens, og 0 angiver, at det ikke er. Du kan angive en grænse for afleveringsscore for at bestemme, hvad der udgør en afleveringsscore for et svar.

  1. Når du tilføjer eller redigerer testmetoder, vælg Tekstlighed.

  2. Sæt beståelsesscoren for denne metode.

  3. Tilføj de forventede svar. Enhver testcase uden en giver et ugyldigt resultat for denne testmetode.

    1. Vælg et testtilfælde.
    2. Tilføj det svar, du forventer.
    3. Vælg Anvend for at gemme det forventede svar.
    4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.

Nøjagtigt match

Nøjagtigt match kontrollerer, om agentens svar stemmer nøjagtigt overens med det forventede svar i testen: tegn for tegn, ord for ord. Hvis det er det samme, så går det igennem. Hvis noget er forskelligt, mislykkes det. Nøjagtigt match er nyttigt til korte, præcise svar, f.eks. tal, koder eller faste udtryk. Det passer ikke til svar, som folk kan udtrykke på flere korrekte måder.

  1. Når du tilføjer eller redigerer testmetoder, vælg Præcis match.

  2. Tilføj de forventede svar. Enhver testcase uden en giver et ugyldigt resultat for denne testmetode.

    1. Vælg et testtilfælde.
    2. Tilføj det svar, du forventer.
    3. Vælg Anvend for at gemme det forventede svar.
    4. Gentag for alle de testcases, du vil teste, ved at bruge denne metode.