Del via


Kør tests med samtaler med flere skift

Samtaleevaluering giver dig mulighed for at vurdere din agents generelle funktionsmåde over en længere interaktion. Den afspejler, hvordan rigtige brugere interagerer med agenter, hvor hvert svar afhænger af tidligere kontekst i en igangværende samtale. Du kan bruge disse evalueringer til at bestemme, om en agent kan bevare konteksten, bede om præciseringer og udføre opgaver med flere trin.

Du kan også køre enkelt svarevalueringer, som er gode til, når du vil teste din agent for, hvordan den besvarer specifikke spørgsmål, hvilke funktioner den kalder, og hvilken ordlyd den bruger i sine svar.

Evalueringer bruger testsæt. Et testsæt til samtaleevalueringer består af en gruppe på op til 20 testcases. Når du kører en agentevaluering, vælger du et testsæt og Copilot Studio kører alle testcases i dette sæt i forhold til din agent.

Du kan oprette testcases i et testsæt ved at importere dem ved hjælp af et regneark eller ved hjælp af AI til at generere meddelelser baseret på din agents design og ressourcer. Du kan derefter vælge, hvordan du vil måle kvaliteten af din agents svar for hver testcase i et testsæt.

For mere information om, hvordan agentvurdering fungerer, se Om agentvurdering.

For at lære, hvordan man redigerer et eksisterende testsæt, se Ændr detaljerne i et testsæt.

Vigtigt!

Testresultater er tilgængelige i Copilot Studio i 89 dage. For at gemme dine testresultater i længere tid, eksporter resultaterne til en CSV-fil.

Opret et samtaletestsæt

  1. Gå til din agents vurderingsside .

Skærmbillede, der viser, hvordan man vælger fanen Evaluering, når fanevalget er komprimeret på grund af skærmstørrelse.

  1. Vælg Ny evaluering, og vælg derefter Samtale.

    Skærmbillede, der viser den samtaleindstilling, der er valgt til oprettelse af testsæt.

  2. Du kan oprette testcases med flere sving ved hjælp af en af følgende metoder:

    • Hurtig samtalesæt: Opret automatisk 10 korte samtaler baseret på din agents beskrivelse, instruktioner og egenskaber.

    • Komplet samtalesæt: Generér samtaler ved hjælp af din agents viden eller definerede emner. I denne indstilling kan du vælge at oprette korte eller lange samtaler.

    • Brug din testchat: Konvertér den seneste testchat til en testcase.

Bemærkning

Samtaletestsæt understøtter op til 20 testcases. Hver testcase understøtter op til 12 meddelelser i alt, hvilket er 6 par spørgsmål og svar.

  1. Skriv et navn til testsættet under Navn.

  2. Rediger eller tilføj de testmetoder , du vil bruge. I forbindelse med samtaletestsæt kan du tilføje den generelle kvalitet, nøgleordsmatch, Capabilities match eller de brugerdefinerede testmetoder til klassificering .

    • Tilføj en ny metode:
      1. Vælg Tilføj testmetode.
      2. Vælg alle de metoder, du vil teste med, og vælg derefter OK. Du kan tilføje flere metoder.
      3. For nogle metoder skal du sætte en bestået score, og derefter vælge OK. Beståelsesscoren bestemmer, hvilken score der resulterer i bestået eller ikke-bestået.
      4. Nogle metoder kræver, at man tilføjer forventede svar eller nøgleord for hvert af dine testtilfælde. For mere information, se Vælg evalueringsmetoder.
    • Vælg en eksisterende testmetode til redigering eller sletning.
    Testmetode Målinger Testsættype Bedømmelse Konfigurationer
    Generel kvalitet Hvor god er en testcases svar(er) baseret på specifikke kvaliteter Enkelt svar eller samtale Scoret ud af 100% Ingen
    Sammenlign betydning Hvor godt betydningen af testtilfældets svar matcher det forventede svar Enkelt svar Scoret ud af 100% Bestået karakter, forventet svar
    Kapacitetsanvendelse Om testcasen brugte alle eller nogen af de forventede ressourcer Enkelt svar Bestået/ikke bestået Forventede kapaciteter
    Nøgleordsmatch Om testsagen brugte alle eller nogle af de forventede nøgleord eller fraser Enkelt svar eller samtale Bestået/ikke bestået Forventede nøgleord eller fraser
    Tekstlighed Hvor godt teksten i testtilfældets svar matcher det forventede svar Enkelt svar Scoret ud af 100% Bestået karakter, forventet svar
    Præcist match Om testtilfældets svar præcist matcher det forventede svar Enkelt svar Bestået/ikke bestået Forventet svar
  3. Rediger detaljerne i testtilfældene. Alle testmetoder, undtagen generel kvalitet, kræver forventede svar eller nøgleord. Du kan få flere oplysninger om redigering af testcases under Rediger et testsæt.

  4. Vælg brugerprofil, og vælg eller tilføj derefter den konto, du vil bruge til dette testsæt, eller fortsæt uden autentificering. Evalueringen bruger denne konto til at forbinde til videnskilder og værktøjer under testning. For information om at tilføje og administrere brugerprofiler, se Administrer brugerprofiler og forbindelser.

Bemærkning

Automatiseret test bruger autentificeringen af den valgte testkonto. Hvis din agent har videnskilder eller forbindelser, der kræver specifik autentificering, vælg den relevante konto til din testning.

  1. Rediger eller opret flere testcases. Få mere at vide i Rediger testcases i et testsæt.

  2. Vælg Save for at opdatere testsættet uden at køre testcases eller Evaluate for at køre testsættet med det samme.