Del via


Kør tests og se resultater

[Denne artikel er til dokumentationen til den foreløbige udgivelse. Der kan forekomme ændringer.]

Ved at bruge resultaterne fra testsættet kan du optimere din agents adfærd og validere, at din agent opfylder dine forretnings- og kvalitetskrav. Du kan også køre testsæt flere gange for at sammenligne resultater, efterhånden som du forbedrer din agent.

Testresultater er tilgængelige i Copilot Studio i 89 dage. For at gemme dine testresultater i længere tid, eksporter resultaterne til en CSV-fil.

Important

Denne artikel indeholder dokumentation til prøveversionen af Microsoft Copilot Studio og kan ændres.

Forhåndsversionsfunktionerne er ikke beregnet til produktionsformål og kan have begrænset funktionalitet. Disse funktioner er tilgængelige før en officiel version, så du kan få tidlig adgang og give feedback.

Hvis du bygger en produktionsklar agent, skal du se Oversigt over Microsoft Copilot Studio.

Kør et testsæt

Efter du har oprettet et testsæt, kan du køre eller genkøre det for at sammenligne resultater over tid og iterationer. En test kan tage op til et par minutter at udføre. Du kan køre én test ad gangen.

Important

Agentevalueringer, der bruger brugerautentificering, kræver adgang via Microsoft Copilot Studio-connectoren. Hvis din administrator slukker for denne forbindelse, kan du ikke køre tests ved at bruge evalueringsværktøjet. For mere information, se Copilot Studio connectors and data groups.

  1. Gå til din agents vurderingsside .

  2. Kør en test ved at udføre en af følgende handlinger:

    • Når du har oprettet eller redigeret et testsæt, vælg Evaluer.
    • I afsnittet Seneste resultater kan du evaluere testresultater ved at gøre en af følgende:
      • Hold musen over det testresultat, du vil evaluere, vælg de tre prikker (...) og vælg derefter Evaluer testsæt igen.
      • Vælg testresultatet for at åbne det, vælg derefter de tre prikker (...) i Evalueringsoversigtspanelet , og vælg derefter Evaluér testsæt igen.

    Hvis brugerprofilen for testsættet har brudte forbindelser, eller testsættet ikke har en brugerprofil, vises dialogen Administrer forbindelser . Du behøver ikke bruge en brugerprofil til test. Men hvis du bruger en profil, skal alle forbindelserne virke. For information om at reparere forbindelser, se Administrer brugerprofiler og forbindelser.

En evaluering kan tage et par minutter at udføre. En advarsel vises i Copilot Studio, når testresultaterne er klar til visning.

Dyk ned i testresultaterne

Hver gang du kører en evaluering med et testsæt, copilot Studio:

  1. Bruger den tilknyttede brugerkonto til at simulere samtaler med agenten og sende hvert spørgsmål i testcasen til agenten.

  2. Indsamler agentens svar.

  3. Måler og analyserer succesen af hvert svar. Hver testcase modtager et bestået eller mislykket, baseret på kriterierne i testcasen.

  4. Tildeler en gennemløbsfrekvensscore baseret på testsættets bestået/failfrekvens .

Du kan se beståelsesprocenten for hvert testsæt på din agents evalueringsside under Seneste resultater. Du kan se flere testtilfælde med kørsler ved at vælge Se alt.

Skærmbillede, der viser en liste over tidligere evalueringer.

Se en detaljeret analyse for et testtilfælde

Når du åbner et testresultat, kan du se detaljerne fra testkørslen, en liste over de forespørgsler, der blev brugt i testen, hvordan agenten svarede, og bestået eller ikke bestået .

Vælg et testtilfælde i listen for at se en detaljeret vurdering af hvert svar.

Skærmbillede, der viser en liste over testcases i en fuldført evaluering.

Vurderingen omfatter de forventede og faktiske svar, begrundelsen bag testresultatet samt den viden, de emner og de værktøjer, agenten brugte til at svare.

Vælg en citeret viden eller emne for at åbne den.

Skærmbillede, der viser det detaljerede resultat og evalueringen af en testcase.

Sammenlign testresultater

Du vil teste én version af din agent og se ændringer i ydeevnen før og efter, du laver ændringer. Du kan sammenligne to gennemløb af det samme testsæt ved at bruge værktøjet Sammenligning med .

For at kunne sammenligne skal du køre det samme testsæt mindst to gange.

  1. På din agents evalueringssideåbner du den testkørsel , du vil bruge som grundlag for sammenligningen, under Seneste testresultater.

  2. Vælg dropdown-menuen Sammenlign med , og vælg derefter tidspunktet og datoen for den testkørsel, du vil sammenligne med de aktuelt åbne testresultater.

Skærmbillede, der viser Sammenlign med dropdown-menuen.

I testcase-listen viser pile, hvilke testcaseresultater der blev forbedret ved at ændre fra dumpet til bestået , eller afvist ved at skifte fra bestået til dumpet .

Vælg et testtilfælde for at se flere detaljer. I panelet Evalueringsoversigt kan du se en direkte sammenligning af testresultater, med resultatet af den aktuelle testkørsel øverst.

Skærmbillede, der viser de sammenlignede resultater fra to testsæt.

Eksporttestresultater

Du kan eksportere testresultater til en CSV-fil. Filen viser spørgsmålet, forventet svar (hvis relevant), testmetode, beståelsesscore (hvis relevant), agentens svar, testresultatet og analysen for hver testcase.

  1. Gå til din agents vurderingsside .
  2. I afsnittet Seneste resultater kan du eksportere et testresultat ved at gøre en af følgende:
    • Hold musen over testtilfældet, du vil eksportere, vælg de tre prikker (...) og vælg derefter Eksporter testresultater.
    • Vælg testcaset for at åbne det, vælg derefter de tre prikker (...) i Evalueringsoversigtspanelet , og vælg derefter Eksport testresultater.

Testresultaterne downloades som dit testsæts navn.csv.