Automatiseer testen met agentevaluatie

[Dit artikel maakt deel uit van de voorlopige documentatie en kan nog veranderen.]

Naarmate AI-agenten kritieke rollen op zich nemen in bedrijfsprocessen, wordt de noodzaak van betrouwbare, herhaalbare tests essentieel. Agent-evaluatie stelt je in staat tests te genereren die realistische scenario's voor je agent simuleren. Deze tests behandelen sneller meer vragen dan handmatige, geval-tot-geval testen. Vervolgens kun je de nauwkeurigheid, relevantie en kwaliteit van de antwoorden op de vragen die de agent krijgt meten , op basis van de informatie die de agent kan raadplegen. Door gebruik te maken van de resultaten uit de testset kun je het gedrag van je makelaar optimaliseren en valideren dat je makelaar voldoet aan de eisen van jouw bedrijf en kwaliteit.

Belangrijk

Dit artikel bevat documentatie voor de preview van Microsoft Copilot Studio en kan nog veranderen.

Preview-functies zijn niet bedoeld voor productiegebruik en hebben mogelijk beperkte functionaliteit. Deze functies zijn beschikbaar voor een officiële release zodat u vroeg toegang kunt krijgen en feedback kunt geven.

Zie Overzicht van Microsoft Copilot Studio als u een productieklare agent aan het bouwen bent.

Waarom geautomatiseerd testen gebruiken?

Agent-evaluatie biedt geautomatiseerde, gestructureerde tests. Het helpt problemen vroegtijdig te ontdekken, vermindert het risico op slechte antwoorden en behoudt de kwaliteit naarmate de agent zich ontwikkelt. Dit proces brengt een geautomatiseerde, herhaalbare vorm van kwaliteitsborging naar agenttesten. Het zorgt ervoor dat de makelaar voldoet aan de nauwkeurigheids- en betrouwbaarheidsnormen van uw bedrijf en biedt transparantie over hoe het bedrijf presteert. Het heeft andere sterke punten dan testen via de testchat.

Agentbeoordeling meet de correctheid en prestaties, niet de AI-ethiek of veiligheidsproblemen. Een agent kan alle evaluatietests doorstaan, maar bijvoorbeeld toch een ongepast antwoord op een vraag geven. Klanten moeten nog steeds verantwoorde AI-reviews en contentveiligheidsfilters gebruiken; Evaluaties vervangen die recensies en filters niet.

Hoe agent-evaluatie werkt

Copilot Studio gebruikt een testcase voor elke agent-evaluatie. Een testgeval is een enkel bericht of vraag die simuleert wat een gebruiker aan je agent zou vragen. Een testgeval kan ook het antwoord bevatten dat je verwacht dat je makelaar zal geven. Voorbeeld:

De vraag: Wat zijn je openingstijden?
De verwachte reactie: We zijn open van 9.00 tot 17.00 uur van maandag tot vrijdag.

Door middel van agent-evaluatie kun je een groep testgevallen genereren, importeren of handmatig schrijven. Deze groep testgevallen wordt een testset genoemd. Een testset stelt je in staat om:

Voer meerdere testcases uit die een breed scala aan mogelijkheden tegelijk bestrijken, in plaats van je agent één vraag tegelijk te stellen.
Analyseer de prestaties van je agent met een gemakkelijk te begrijpen totaalscore en zoom ook in op individuele testcases.
Test wijzigingen aan je agenten met dezelfde testset, zodat je een objectieve standaard hebt om veranderingen in prestaties te meten en te vergelijken.
Maak snel nieuwe testsets of pas bestaande aan om te voldoen aan veranderende agentcapaciteiten of -eisen.

De testset bevat ook de testmethoden die je wilt gebruiken. U kunt de prestaties van uw makelaar meten op basis van:

Exacte match of trefwoordmatch: Hoe nauwkeurig het antwoord van je agent op een vraag overeenkomt met je verwachte antwoord.
Semantische gelijkenis: Hoe nauwkeurig het antwoord van je agent overeenkomt met het idee of de intentie van je verwachte antwoord.
Kwaliteit: Hoe goed de antwoorden van je makelaar presteren met een LLM-gebaseerde evaluatie.

Je kunt ook een gebruikersprofiel kiezen als de gebruiker die de vragen stuurt. De agent kan zo zijn ingesteld dat hij op verschillende manieren op verschillende gebruikers reageert, of toegang tot bronnen op verschillende manieren toestaat.

Wanneer je een testset selecteert en een agentevaluatie uitvoert, stuurt Copilot Studio de vragen in de testcases, registreert de antwoorden van de agent, vergelijkt die met verwachte antwoorden of een kwaliteitsnorm, en kent een score toe aan elk testcase. Je kunt ook de details, transcriptie en activiteitenkaart voor elk testgeval zien en welke bronnen jouw agent gebruikte om de respons te maken.

Testchat versus agent-evaluatie

Elke testmethode geeft je verschillende inzichten in de kwaliteiten en het gedrag van je agent:

Testchat:

Ontvangt en beantwoordt één vraag tegelijk. Het is moeilijk om dezelfde tests meerdere keren te doen.
Hiermee kun je een volledige sessie testen met meerdere berichten.
Stelt je in staat om als gebruiker met je agent te communiceren via een chatinterface.

Agentbeoordeling:

Je kunt meerdere testcases tegelijk aanmaken en uitvoeren. Je kunt tests herhalen door dezelfde testset te gebruiken.
Je kunt maar één vraag en één antwoord per testgeval testen. Het test geen volledige gesprekssessie.
Kies verschillende gebruikersprofielen om verschillende gebruikers te simuleren zonder de interacties zelf te hoeven uitvoeren.

Wanneer je een agent test, gebruik dan zowel de testchat als de agentenbeoordeling voor een volledig beeld van je agent.

Feedback

Is deze pagina nuttig?

Last updated on 2026-01-15