Del via


Automatiser testing med agentevaluering

[Denne artikkelen inneholder dokumentasjon for forhåndsversjonen og kan bli endret.]

Etter hvert som AI-agenter tar på seg kritiske roller i forretningsprosesser, blir behovet for pålitelig og repeterbar testing avgjørende. Agentevaluering lar deg generere tester som simulerer virkelige scenarioer for agenten din. Disse testene dekker flere spørsmål raskere enn manuell, sak-til-sak-testing. Deretter kan du måle nøyaktigheten, relevansen og kvaliteten på svarene på spørsmålene agenten får, basert på informasjonen agenten har tilgang til. Ved å bruke resultatene fra testsettet kan du optimalisere agentens atferd og validere at agenten oppfyller dine forretnings- og kvalitetskrav.

Viktig!

Denne artikkelen inneholder dokumentasjon for Microsoft Copilot Studio-forhåndsversjonen og kan bli endret.

Evalueringsfunksjonalitet er ikke ment for produksjonsbruk og kan ha begrensninger. Disse funksjonene er tilgjengelige før en offisielle utgivelsen slik at du kan få tidlig tilgang og gi tilbakemeldinger.

Hvis du skal bygge en produksjonsklar agent, kan du se Oversikt over Microsoft Copilot Studio.

Hvorfor bruke automatisert testing?

Agentevaluering gir automatisert, strukturert testing. Det hjelper til med å oppdage problemer tidlig, reduserer risikoen for dårlige svar, og opprettholder kvaliteten etter hvert som agenten utvikler seg. Denne prosessen gir en automatisert, repeterbar form for kvalitetssikring til agenttesting. Den sørger for at agenten oppfyller virksomhetens nøyaktighets- og pålitelighetsstandarder, og gir åpenhet om hvordan den presterer. Det har andre styrker enn testing ved å bruke testchatten.

Agentvurdering måler korrekthet og ytelse, ikke AI-etikk eller sikkerhetsproblemer. En agent kan bestå alle evalueringstester, men likevel for eksempel gi et upassende svar på et spørsmål. Kunder bør fortsatt bruke ansvarlige AI-anmeldelser og innholdssikkerhetsfiltre; Evalueringer erstatter ikke disse anmeldelsene og filtrene.

Hvordan agentevaluering fungerer

Copilot Studio bruker et testtilfelle for hver agentevaluering. Et testtilfelle er en enkelt melding eller et spørsmål som simulerer hva en bruker ville spurt agenten din om. Et testtilfelle kan også inkludere svaret du forventer at agenten din skal svare med. Eksempel:

  • Spørsmålet: Hva er åpningstidene dine?

  • Forventet respons: Vi har åpent fra kl. 09.00 til 17.00 mandag til fredag.

Ved å bruke agentevaluering kan du generere, importere eller manuelt skrive en gruppe testtilfeller. Denne gruppen av testtilfeller kalles et testsett. Et testsett lar deg å:

  • Kjør flere testtilfeller som dekker et bredt spekter av funksjoner samtidig, i stedet for å stille agenten ett spørsmål om gangen.

  • Analyser agentens prestasjoner med en lettfattelig samlet poengsum, og zoom også inn på individuelle testtilfeller.

  • Test endringer i agentene dine ved å bruke det samme testsettet, slik at du har en objektiv standard for å måle og sammenligne endringer i ytelse.

  • Lag raskt nye testsett eller modifiser eksisterende for å dekke endrede agenters egenskaper eller krav.

Testsettet inkluderer også testmetodene du ønsker å bruke. Du kan måle agentens prestasjoner basert på:

  • Eksakt match eller nøkkelordmatch: Hvor nøyaktig agentens svar på et spørsmål samsvarer med ditt forventede svar.

  • Semantisk likhet: Hvor nært agentens svar samsvarer med ideen eller intensjonen bak ditt forventede svar.

  • Kvalitet: Hvor godt agentens svar fungerer ved hjelp av en LLM-basert vurdering.

Du kan også velge en brukerprofil som bruker som sender spørsmålene. Agenten kan være konfigurert til å svare ulike brukere på forskjellige måter, eller tillate tilgang til ressurser på forskjellige måter.

Når du velger et testsett og kjører en agentevaluering, sender Copilot Studio spørsmålene i testtilfellene, registrerer agentens svar, sammenligner disse svarene med forventede svar eller en kvalitetsstandard, og tildeler en poengsum til hvert testtilfelle. Du kan også se detaljene, transkripsjonen og aktivitetskarten for hvert testtilfelle, samt hvilke ressurser agenten din brukte for å lage svaret.

Testchat versus agentevaluering

Hver testmetode gir deg ulike innsikter i agentens kvaliteter og atferd:

Testchat:

  • Mottar og svarer på ett spørsmål om gangen. Det er vanskelig å gjenta de samme testene flere ganger.

  • Lar deg teste en hel økt med flere meldinger.

  • Lar deg samhandle med agenten din som bruker ved å bruke et chattegrensesnitt.

Agentvurdering:

  • Kan lage og kjøre flere testtilfeller samtidig. Du kan repetere tester ved å bruke samme testsett.

  • Kan bare teste ett spørsmål og ett svar per testtilfelle. Det tester ikke en full samtaleøkt.

  • Velg ulike brukerprofiler for å simulere forskjellige brukere uten å måtte fullføre interaksjonene selv.

Når du tester en agent, bruk både testchatten og agentvurderingen for å få et fullstendig bilde av agenten din.