Del via


Forbedre agenttesting med Copilot Studio Kit

Power CAT Copilot Studio Kit er et brukervennlig program som lar deg bekrefte agentsvar. Den inneholder også opprinnelige funksjoner som Excel-eksport og import for masseoppretting og oppdateringer.

Konfigurere, kjøre og analysere

Konfigurer og kjør tester mot Copilot Studio API-er (Direct Line API) for å evaluere agentsvar mot forventede resultater.

Hvis du vil berike resultatene, henter du flere datapunkter fra Azure Application Insights og Dataverse ved å analysere poster for samtaletranskripsjon (for eksempel det nøyaktige utløste emnenavnet og resultatene for hensiktsgjenkjenning).

For AI-genererte svar, som er ikke-deterministiske av natur, kan du bruke ledetekster for å sammenligne det genererte svaret med et eksempelsvar eller valideringsinstruksjoner.

Diagram som viser Azure- og Power Platform-komponenter som er involvert i testing og analyse av Copilot Studio Direct Line-API-er, inkludert Azure Application Insights, AI Builder og Dataverse.

Testtyper

Verktøyet støtter disse testtypene:

  • Svartreff
  • Vedlegg som adaptive kort
  • Emne samsvar (krever Dataverse)
  • Generative svar (krever AI Builder for svaranalyse og programinnsikt for detaljer om hvorfor et svar ikke ble generert)
  • Testtype med flere svinger er en spesiell testtype. Den består av et sett med testtilfeller av vanlige typer som kjører i en angitt rekkefølge i samme samtalekontekst. Bruk flersvingstester til å teste scenarioer fra ende til ende, og for å teste egendefinerte agenter med generativ orkestrering.
  • Med planvalidering kan beslutningstakere validere at deres egendefinerte agenter som bruker generativ orkestrering, inkluderer de forventede verktøyene. I stedet for å evaluere hva agenten sier, kontrollerer denne testtypen at agentens dynamiske plan inkluderer de forventede verktøyene (verktøy, handlinger og tilkoblede agenter) til en forhåndsbestemt terskel.

Lær mer om testtyper i Konfigurer tester i Copilot Studio Kit.

Skjermbilde av resultatdetaljene for testkjøring, inkludert grafikk som viser suksessrate og ventetid for alle testkjøringer.

Neste trinn