Automatisera testning med agentutvärdering

[Denna artikel är en förhandsversion av dokumentationen och kan komma att ändras.]

När AI-agenter tar på sig kritiska roller i affärsprocesser blir behovet av pålitlig, upprepbar testning avgörande. Agentutvärdering låter dig generera tester som simulerar verkliga scenarier för din agent. Dessa tester täcker fler frågor snabbare än manuella, fall-för-fall-tester. Sedan kan du mäta noggrannheten, relevansen och kvaliteten på svaren på de frågor agenten får, baserat på den information agenten kan få tillgång till. Genom att använda resultaten från testuppsättningen kan du optimera din agents beteende och validera att din agent uppfyller dina affärs- och kvalitetskrav.

Viktigt!

Den här artikeln innehåller dokumentation om förhandsversionen av Microsoft Copilot Studio och kan ändras.

Förhandsversionsfunktioner är inte avsedda för produktionsanvändning och kan ha begränsade funktioner. Funktionerna är tillgängliga före den officiella publiceringen så att du kan få tidig tillgång och ge feedback.

Om du skapar en produktionsklar agent, se översikten över Microsoft Copilot Studio.

Varför använda automatiserad testning?

Agentutvärdering erbjuder automatiserad, strukturerad testning. Det hjälper till att upptäcka problem tidigt, minskar risken för dåliga svar och upprätthåller kvaliteten i takt med att agenten utvecklas. Denna process ger en automatiserad, upprepbar form av kvalitetssäkring till agenttestning. Det säkerställer att agenten uppfyller ditt företags krav på noggrannhet och tillförlitlighet och ger transparens i hur det presterar. Det har andra styrkor än att testa genom att använda testchatten.

Agentutvärdering mäter korrekthet och prestanda, inte AI-etik eller säkerhetsproblem. En agent kan klara alla utvärderingstester men ändå till exempel ge ett olämpligt svar på en fråga. Kunder bör fortfarande använda ansvarsfulla AI-recensioner och filter för innehållssäkerhet; Utvärderingar ersätter inte dessa recensioner och filter.

Hur agentutvärdering fungerar

Copilot Studio använder ett testfall för varje agentutvärdering. Ett testfall är ett enda meddelande eller en fråga som simulerar vad en användare skulle fråga din agent. Ett testfall kan också inkludera det svar du förväntar dig att din agent ska svara. Till exempel:

Frågan: Vilka är dina öppettider?
Det förväntade svaret: Vi har öppet från 9.00 till 17.00 måndag till fredag.

Genom att använda agentutvärdering kan du generera, importera eller manuellt skriva en grupp testfall. Denna grupp av testfall kallas en testuppsättning. Ett testset tillåter dig att:

Kör flera testfall som täcker ett brett spektrum av funktioner samtidigt, istället för att ställa en fråga till din agent en i taget.
Analysera din agents prestation med en lättsmält aggregerad poäng och zooma även in på enskilda testfall.
Testa förändringar hos dina agenter med samma testuppsättning, så att du har en objektiv standard för att mäta och jämföra förändringar i prestation.
Skapa snabbt nya testuppsättningar eller modifiera befintliga för att täcka förändrade agenters kapacitet eller krav.

Testsetet innehåller också de testmetoder du vill använda. Du kan mäta din agents prestation baserat på:

Exakt matchning eller nyckelordsmatchning: Hur nära din agents svar på en fråga stämmer överens med ditt förväntade svar.
Semantisk likhet: Hur nära din agents svar stämmer överens med idén eller avsikten med ditt förväntade svar.
Kvalitet: Hur väl din agents svar fungerar med en LLM-baserad utvärdering.

Du kan också välja en användarprofil som agerar som den som skickar frågorna. Agenten kan vara konfigurerad att svara olika användare på olika sätt, eller tillåta tillgång till resurser på olika sätt.

När du väljer en testuppsättning och kör en agentutvärdering skickar Copilot Studio frågorna i testfallen, registrerar agentens svar, jämför dessa svar med förväntade svar eller en kvalitetsstandard, och tilldelar en poäng till varje testfall. Du kan också se detaljer, transkription och aktivitetskarta för varje testfall samt vilka resurser din agent använde för att skapa svaret.

Testchatt kontra agentutvärdering

Varje testmetod ger dig olika insikter om din agents egenskaper och beteende:

Testchatt:

Tar emot och svarar på en fråga i taget. Det är svårt att upprepa samma tester flera gånger.
Låter dig testa en hel session med flera meddelanden.
Låter dig interagera med din agent som användare genom att använda ett chattgränssnitt.

Agentutvärdering:

Kan skapa och köra flera testfall samtidigt. Du kan upprepa tester genom att använda samma testuppsättning.
Kan bara testa en fråga och ett svar per testfall. Det testar inte en hel samtalssession.
Välj olika användarprofiler för att simulera olika användare utan att behöva genomföra interaktionerna själv.

När du testar en agent, använd både testchatten och agentutvärderingen för att få en fullständig bild av din agent.

Feedback

Var den här sidan hjälpsam?

Last updated on 2026-01-15