Del via


Lav testsæt til evalueringer

[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]

I Copilot Studio kan du oprette et testsæt af testcases for at evaluere dine agenters præstation. Med testcases kan du simulere scenarier i den virkelige verden for din agent, så du kan måle nøjagtigheden, relevansen og kvaliteten af svar på de spørgsmål, som agenten bliver bedt om, baseret på de oplysninger, som agenten kan få adgang til. Ved at bruge resultaterne fra testsættet kan du optimere din agents adfærd og validere, at din agent opfylder dine forretnings- og kvalitetskrav.

Vigtigt!

Denne artikel indeholder dokumentation til prøveversionen af Microsoft Copilot Studio og kan ændres.

Prøveversionsfunktioner er ikke beregnet til produktionsformål og kan have begrænset funktionalitet. Disse funktioner er tilgængelige før en officiel version, så du kan få tidlig adgang og give feedback.

Hvis du bygger en produktionsklar agent, skal du se Oversigt over Microsoft Copilot Studio.

Evalueringer fungerer ved at sende beskeder til din agent, optage svarene og sammenligne disse svar med forventede svar eller en kvalitetsstandard. Flere beskeder, brugt som testcases, kan give dig en bedre idé om, hvordan din agent håndterer forskellige brugsscenarier.

Du kan oprette testcases manuelt, importere dem ved hjælp af et regneark eller bruge AI til at generere beskeder baseret på din agents design og viden. Du kan derefter vælge, hvordan du vil måle kvaliteten af din agents svar for hver testcase i et testsæt. For mere information om oprettelse af testcases, se Opret et testsæt.

Vigtigt!

Testresultater er tilgængelige i Copilot Studio i 89 dage. For at gemme dine testresultater i længere tid, eksporter resultaterne til en CSV-fil.

Opret et nyt testsæt

  1. Gå til din agents vurderingsside .

  2. Vælg nyt testsæt.

    Skærmbillede, der viser knappen Opret ny test på Evalueringssiden.

  3. På siden Nyt testsæt skal du vælge den metode, du vil bruge til at oprette dit testsæt:

    • Sæt et hurtigt spørgsmål for at få Copilot Studio til automatisk at oprette testcases baseret på din agents beskrivelse, instruktioner og kapaciteter. Denne mulighed genererer 10 spørgsmål til at køre små, hurtige evalueringer eller til at begynde at opbygge et større testsæt.
    • Hele spørgsmålssæt for at få Copilot Studio til at generere testcases ved hjælp af din agents videnskilder eller emner.
    • Brug din testchat-samtale til automatisk at udfylde testsættet med de spørgsmål, du har givet i din testchat. Denne metode bruger spørgsmål fra den seneste testchat. Du kan også starte en evaluering fra testchatten ved at bruge evaluer-knappen . Skærmbillede, der viser knappen Opret ny test i testchatten.
    • Importer testcases fra en fil ved at trække din fil ind i det udpegede område, vælge Gennemse for at uploade en fil eller vælge en af de andre uploadmuligheder.
    • Eller skriv selv nogle spørgsmål for manuelt at lave et testsæt. Følg trinene for at redigere et testsæt for at tilføje og redigere testcases.
  4. Rediger detaljerne i testtilfældene. Alle testcases, der bruger metoder undtagen generel kvalitet , kræver forventede svar. For mere information om redigering, se Ændr et testsæt.

  5. Angiv et navn til testsættet under Navn.

  6. Vælg brugerprofil, og vælg eller tilføj derefter den konto, du vil bruge til dette testsæt, eller fortsæt uden autentificering. Evalueringen bruger denne konto til at forbinde til videnskilder og værktøjer under testning. For information om at tilføje og administrere brugerprofiler, se Administrer brugerprofiler og forbindelser.

Notat

Automatiseret test bruger autentificeringen af den valgte testkonto. Hvis din agent har videnskilder eller forbindelser, der kræver specifik autentificering, vælg den relevante konto til din testning.

  1. Vælg Save for at opdatere testsættet uden at køre testcases eller Evaluate for at køre testsættet med det samme.

Begrænsning for generering af testtilfælde

Når du genererer en gruppe testcases, kan genereringen fejle, fordi et eller flere spørgsmål overtræder din agents indholdsmoderationsindstillinger. Årsagerne inkluderer:

  • Agentens instruktioner eller emner får modellen til at generere indhold, der er markeret
  • Den tilknyttede videnskilde indeholder følsomt eller begrænset indhold
  • Agentens indstillinger for indholdsmoderation er alt for strenge

Du kan være nødt til at prøve forskellige handlinger for at løse problemet, såsom at justere videnskilder, opdatere instruktioner eller ændre moderationsindstillinger.

Generer et testsæt ud fra viden eller emner

Du kan teste din agent ved at generere spørgsmål ved hjælp af de oplysninger og samtalekilder, din agent allerede har. Denne testmetode er god til at teste, hvordan din agent bruger den viden og de emner, den allerede har, men den er ikke god til at teste informationshuller.

Du kan generere testcases ved hjælp af disse videnskilder:

  • Tekst
  • Microsoft Word
  • Microsoft Excel

Du kan bruge filstørrelser op til 293 KB til at generere testspørgsmål.

For at generere et testsæt:

  1. På siden Nyt testsæt vælger du Fuldt spørgsmålssæt.

  2. Vælg enten Viden eller Emner.

    • Viden fungerer bedst for agenter, der bruger generativ orkestrering. Denne metode skaber spørgsmål ved at bruge et udvalg af din agents videnskilder.
    • Topics fungerer bedst for agenter, der bruger klassisk orkestrering. Denne metode skaber spørgsmål ved at bruge din agents emner.
  3. For Knowledge skal du vælge de videnskilder, du vil inkludere i spørgsmålsgenereringen.

Skærmbillede, der viser udvælgelsen af videnskilder, der skal inkluderes i testcase-genereringen.

  1. For Viden og emner skal du vælge og trække skyderen for at vælge, hvor mange spørgsmål der skal genereres.

Skærmbillede, der viser skyderen til at vælge, hvor mange spørgsmål der skal genereres.

  1. Vælg Generer.

  2. Rediger detaljerne i testtilfældene. Alle testcases, der bruger metoder undtagen generel kvalitet , kræver forventede svar. For mere information om redigering, se Ændr et testsæt.

  3. Vælg Administrer profil for at vælge eller forbinde den konto, du vil bruge til dette testsæt. Du kan også fortsætte uden at tilføje en konto til autentificering.

Notat

Automatiseret test bruger autentificeringen af den valgte testkonto. Hvis din agent har videnskilder eller forbindelser, der kræver specifik autentificering, vælg den relevante konto til din testning.

Når Copilot Studio genererer testcases, bruger den autentificeringsoplysningerne fra en tilknyttet konto til at få adgang til din agents videnskilder og værktøjer. De genererede testcases eller resultater kan indeholde følsomme oplysninger, som den tilknyttede konto har adgang til, og disse oplysninger er synlige for alle skabere, der kan få adgang til testsættet.

  1. Vælg Save for at opdatere testsættet uden at køre testcases eller Evaluate for at køre testsættet med det samme.

Opret en testsætfil til import

I stedet for at bygge dine testcases direkte i Copilot Studio kan du oprette en regnearksfil med alle dine testcases og importere dem for at oprette dit testsæt. Du kan skrive hvert testspørgsmål, bestemme den testmetode, du vil bruge, og angive de forventede svar for hvert spørgsmål. Når du er færdig med at oprette filen, skal du gemme den som en .csv- eller .txt-fil og importere den i Copilot Studio.

Vigtigt!

  • Filen kan indeholde op til 100 spørgsmål.
  • Hvert spørgsmål kan være op til 1.000 tegn, herunder mellemrum.
  • Filen skal være i CSV-format (kommaseparerede værdier) eller tekstformat.

Sådan oprettes importfilen:

  1. Åbn et regnearksprogram (f.eks. Microsoft Excel).

  2. Tilføj følgende overskrifter i denne rækkefølge i den første række:

    • Spørgsmål
    • Forventet svar
    • Testmetode
  3. Angiv dine testspørgsmål i kolonnen Spørgsmål. Hvert spørgsmål kan være på 1.000 tegn eller mindre, inklusive mellemrum.

  4. Angiv en af følgende testmetoder for hvert spørgsmål i kolonnen Testmetode:

    • Generel kvalitet
    • Sammenlign betydning
    • Lighed
    • Nøjagtigt match
    • Delvist match
  5. Angiv de forventede svar for hvert spørgsmål i kolonnen Forventet svar. Forventede svar er valgfrie for import af et testsæt. Du skal dog have forventede svar for at køre match, lighed og sammenligne betydningstestcases.

  6. Gem filen som en .csv- eller .txt-fil.

  7. Importer filen ved at følge trinene i Opret et nyt testsæt.