Del via


Lag eller endre et testsett for å evaluere agenten din

[Denne artikkelen inneholder dokumentasjon for forhåndsversjonen og kan bli endret.]

Et testsett består av en gruppe på opptil 100 testtilfeller. Når du kjører en agentvurdering, velger du et testsett, og Copilot Studio kjører alle testtilfellene i det settet mot agenten din.

Du kan lage testtilfeller i et testsett manuelt, importere dem ved å bruke et regneark, eller bruke AI til å generere meldinger basert på agentens design og ressurser. Du kan deretter velge hvordan du vil måle kvaliteten på agentens svar for hvert testtilfelle i et testsett.

For mer informasjon om hvordan agentvurdering fungerer, se Om agentvurdering.

For å lære hvordan du redigerer et eksisterende testsett, se Endre detaljene i et testsett.

Viktig!

Testresultatene er tilgjengelige i Copilot Studio i 89 dager. For å lagre testresultatene dine over lengre tid, eksporter resultatene til en CSV-fil.

Opprette et nytt testsett

  1. Gå til agentens evalueringsside .

Skjermbilde som viser hvordan man velger Evalueringsfanen når fanevalget komprimeres på grunn av skjermstørrelse.

  1. Velg Ny evaluering.

    Skjermbilde som viser knappen Opprett ny test på Evalueringssiden.

  2. På siden for ny evaluering velger du metoden du vil bruke for å lage testsettet ditt. Et testsett kan ha opptil 100 testtilfeller.

    • Sett opp raske spørsmål slik at Copilot Studio automatisk lager testtilfeller basert på agentens beskrivelse, instruksjoner og kapasiteter. Dette alternativet genererer 10 spørsmål for å kjøre små, raske evalueringer eller for å begynne å bygge et større testsett.
    • Fullstendig spørsmålssett for å la Copilot Studio generere testtilfeller ved å bruke agentens kunnskapskilder eller temaer og velge antall spørsmål som skal genereres.
    • Bruk testchatten din til automatisk å fylle testsettet med spørsmålene du har levert i testchatten. Denne metoden bruker spørsmål fra den siste testchatten. Du kan også starte en evaluering fra testchatten ved å bruke evaluer-knappen . Skjermbilde som viser knappen for å opprette ny test i testchatten.
    • Importer testtilfeller fra en fil ved å dra filen inn i det angitte området, velge Bla gjennom for å laste opp en fil, eller velge et av de andre opplastingsalternativene.
    • Eller skriv noen spørsmål selv for å manuelt lage et testsett. Følg trinnene for å redigere et testsett for å legge til og redigere testtilfeller.
    • Bruk produksjonsdata basert på temaer fra agentens analyser. Skjermbilde som viser Evaluer-alternativet for et tema i Temalisten for ett tema.
  3. Rediger detaljene i testtilfellene. Alle testtilfeller som bruker metoder, bortsett fra generell kvalitet, krever forventede svar. For mer informasjon om redigering, se Endre et testsett.

  4. Skriv inn et navn på testsettet under Navn.

  5. Endre eller legg til testmetodene du ønsker å bruke:

    • Legg til en ny metode:
      1. Velg Legg til testmetode.
      2. Velg alle metodene du vil teste med, og velg deretter OK. Du kan legge til flere metoder.
      3. For noen metoder, sett en beståttscore, og velg OK. Beståttresultatet avgjør hvilken poengsum som resulterer i bestått, eller stryk.
      4. Noen metoder krever at du legger til forventede svar eller nøkkelord for hvert av testtilfellene dine. For mer informasjon, se Velg evalueringsmetoder.
    • Velg en eksisterende testmetode for å redigere eller slette.
    Testmetode Tiltak Poengberegning Konfigurasjoner
    Generell kvalitet Hvor godt er testtilfellets svar basert på spesifikke kvaliteter Fikk poeng av 100% Ingen
    Sammenlign betydning Hvor godt betydningen av testtilfellets svar stemmer overens med det forventede svaret Fikk poeng av 100% Bestått, forventet svar
    Kapasitetsbruk Om testtilfellet brukte de forventede ressursene Bestått/ikke bestått. Forventede kapasiteter
    Nøkkelordmatch Om testtilfellet brukte alle eller noen av de forventede nøkkelordene eller frasene Bestått/ikke bestått. Forventede nøkkelord eller fraser
    Tekstlikhet Hvor godt teksten i testtilfellets svar stemmer overens med det forventede svaret Fikk poeng av 100% Bestått, forventet svar
    Eksakt match Om testtilfellets svar samsvarer nøyaktig med det forventede svaret Bestått/ikke bestått. Forventet svar
  6. Velg brukerprofil, og velg eller legg til kontoen du vil bruke for dette testsettet, eller fortsett uten autentisering. Evalueringen bruker denne kontoen til å koble til kunnskapskilder og verktøy under testing. For informasjon om å legge til og administrere brukerprofiler, se Administrer brukerprofiler og forbindelser.

    Note

    Automatisert testing bruker autentisering av den valgte testkontoen. Hvis agenten din har kunnskapskilder eller kontakter som krever spesifikk autentisering, velg riktig konto for testingen din. Når Copilot Studio genererer testtilfeller, bruker den autentiseringsinformasjonen til en tilknyttet konto for å få tilgang til agentens kunnskapskilder og verktøy. De genererte testtilfellene eller resultatene kan inkludere sensitiv informasjon som den tilknyttede kontoen har tilgang til, og denne informasjonen er synlig for alle skapere som har tilgang til testsettet.

  7. Velg Save for å oppdatere testsettet uten å kjøre testtilfellene, eller Evaluate for å kjøre testsettet umiddelbart.

Begrensning for generering av testtilfeller

Generering av testtilfeller feiler hvis ett eller flere spørsmål bryter agentens innstillinger for innholdsmoderasjon. Mulige grunner inkluderer:

  • Agentens instruksjoner eller temaer leder modellen til å generere innhold som systemet flagger.
  • Den tilknyttede kunnskapskilden inkluderer sensitivt eller begrenset innhold.
  • Agentens innstillinger for innholdsmoderering er altfor strenge.

For å løse problemet, prøv ulike tiltak, som å justere kunnskapskilder, oppdatere instruksjoner eller endre moderasjonsinnstillinger.

Et testsett kan inneholde opptil 100 testtilfeller.

Lag et testsett basert på kunnskap eller temaer

Du kan teste agenten din ved å generere spørsmål basert på informasjonen og samtalekildene agenten allerede har. Denne testmetoden er god for å teste hvordan agenten din bruker kunnskapen og temaene den allerede har, men den er ikke god for å teste informasjonshull.

Du kan generere testtilfeller ved å bruke disse kunnskapskildene:

  • Tekst

  • Microsoft Word

  • Microsoft Excel

Du kan bruke filer på opptil 293 KB for å generere testspørsmål.

For å generere et testsett:

  1. I Ny vurdering, velg Fullstendig spørsmålssett.

  2. Velg enten Kunnskap eller Emner.

    • Kunnskap fungerer best for agenter som bruker generativ orkestrering. Denne metoden skaper spørsmål ved å bruke et utvalg av agentens kunnskapskilder.
    • Topics fungerer best for agenter som bruker klassisk orkestrering. Denne metoden skaper spørsmål ved å bruke agentens temaer.
  3. For kunnskap, velg kunnskapskildene du vil inkludere i spørsmålsgenereringen.

Skjermbilde som viser utvelgelsen av kunnskapskilder som skal inkluderes i testcase-genereringen.

  1. For Kunnskap og Emner, velg og dra glideren for å velge antall spørsmål som skal genereres.

Skjermbilde som viser slideren for å velge hvor mange spørsmål som skal genereres.

  1. Velg Generer.

  2. Skriv inn et navn på testsettet under Navn.

    1. Endre eller legg til testmetodene du ønsker å bruke:
    • Legg til en ny metode:
      1. Velg Legg til testmetode.
      2. Velg alle metodene du vil teste med, og velg deretter OK. Du kan legge til flere metoder.
      3. For noen metoder, sett en beståttscore, og velg OK. Beståttresultatet avgjør hvilken poengsum som resulterer i bestått, eller stryk.
      4. Noen metoder krever at du legger til forventede svar eller nøkkelord for hvert av testtilfellene dine. For mer informasjon, se Velg evalueringsmetoder
    • Velg en eksisterende testmetode for å redigere eller slette.
  3. Rediger detaljene i testtilfellene. Alle testtilfeller som bruker metoder, bortsett fra generell kvalitet, krever forventede svar. For mer informasjon om redigering, se Endre et testsett.

  4. Velg Save for å oppdatere testsettet uten å kjøre testtilfellene, eller Evaluate for å kjøre testsettet umiddelbart.

Lag en testsettfil for import

I stedet for å bygge testsakene direkte i Copilot Studio, kan du opprette en regnearkfil med alle testsakene og importere dem for å opprette testsettet. Du kan skrive hvert testspørsmål, bestemme testmetoden du vil bruke, og angi de forventede svarene for hvert spørsmål. Når du er ferdig med å opprette filen, lagrer du den som en .csv eller .txt fil og importerer den til Copilot Studio.

Viktig!

  • Filen kan inneholde opptil 100 spørsmål.
  • Hvert spørsmål kan være opptil 1000 tegn, inkludert mellomrom.
  • Filen må være i kommadelte verdier (CSV) eller tekstformat.

Slik oppretter du importfilen:

  1. Åpne et regnearkprogram (f.eks. Microsoft Excel).

  2. Legg til følgende overskrifter i denne rekkefølgen i den første raden:

    • Spørsmål
    • Forventet svar
    • Testmetode
  3. Skriv inn testspørsmålene i kolonnen Spørsmål. Hvert spørsmål kan være 1000 tegn eller mindre, inkludert mellomrom.

  4. Skriv inn en av følgende testmetoder for hvert spørsmål i kolonnen Testmetode :

    • Generell kvalitet
    • Sammenlign mening
    • Likhet
    • Nøyaktig treff
    • Nøkkelordmatch
  5. Skriv inn de forventede svarene for hvert spørsmål i kolonnen Forventet svar. Forventede svar er valgfrie for import av et testsett. Du trenger imidlertid forventede svar for å kjøre testsaker for samsvar, likhet og sammenligning av mening.

  6. Lagre filen som en CSV- eller TXT-fil.

  7. Importer filen ved å følge stegene i Lag et nytt testsett.

Lag et testsett basert på et tema

Lag et testsett med spørsmål fra samtaler med ekte brukere. Denne metoden bruker temaer (forhåndsvisning), som finnes i agentens analyser.

Temaer er grupperinger av spørsmål hentet fra utvalget av brukerspørsmål som utløser generative svar. Når du lager et testsett med et tema, genererer du testtilfellene fra spørsmål stilt av brukere relatert til det temaet.

Bruk disse testsettene til å utføre evalueringer med fokus på ett område eller tema innen agentens ansvarsområde. For eksempel, hvis du har en kundeservicemedarbeider, kan du spore svarkvaliteten for fakturering og betalingsspørsmål separat fra andre bruksområder som feilsøking.

Note

Før du lager testsett basert på temaer, trenger du tilgang til temaer i analyse. Gå gjennom forutsetningene for temaer (forhåndsvisning).

  1. På agentens analyseside , gå til listen over temaer .

  2. Hold musepekeren over et tema, og velg deretter Evaluer.

    Skjermbilde som viser Evaluer-alternativet for et tema i Temalisten.

    Du kan også velge Se alt for å se flere temaer, og deretter velge Evaluer.

  3. Velg Lag og åpne.

  4. Rediger detaljene i testsettene og tilfellene. Alle testtilfeller som bruker metoder, bortsett fra generell kvalitet, krever forventede svar. For mer informasjon om redigering, se Endre et testsett.

  5. Velg Save for å oppdatere testsettet uten å kjøre testtilfellene, eller Evaluate for å kjøre testsettet umiddelbart.