Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
[Questo articolo fa parte della documentazione non definitiva, pertanto è soggetto a modifiche.]
Man mano che gli agenti AI assumono ruoli critici nei processi aziendali, la necessità di test affidabili e ripetibili diventa essenziale. La valutazione dell'agente ti permette di generare test che simulano scenari reali per il tuo agente. Questi test coprono più domande più rapidamente rispetto ai test manuali, caso per caso. Successivamente, puoi misurare l'accuratezza, la rilevanza e la qualità delle risposte alle domande che vengono poste all'agente, basandoti sulle informazioni a cui l'agente può accedere. Utilizzando i risultati del set di test, puoi ottimizzare il comportamento del tuo agente e verificare che soddisfi i requisiti di business e qualità.
Importante
Questo articolo contiene la documentazione sull'anteprima di Microsoft Copilot Studio ed è pertanto soggetto a modifiche.
Le funzionalità di anteprima non sono progettate per l'uso in produzione e possono avere funzionalità limitate. Queste funzionalità sono disponibili prima di una versione ufficiale in modo che sia possibile ottenere l'accesso iniziale e inviare commenti.
Se stai creando un agente destinato alla produzione, vedi Panoramica di Microsoft Copilot Studio.
Perché usare i test automatici?
La valutazione degli agenti fornisce test automatizzati e strutturati. Aiuta a individuare i problemi precocemente, riduce il rischio di risposte errate e mantiene la qualità man mano che l'agente evolve. Questo processo porta una forma automatizzata e ripetibile di assicurazione della qualità al test degli agenti. Garantisce che l'agente rispetti gli standard di accuratezza e affidabilità della tua azienda e offre trasparenza su come si comporta. Ha punti di forza diversi rispetto al test tramite la chat di test.
La valutazione degli agenti misura la correttezza e le prestazioni, non l'etica dell'IA o i problemi di sicurezza. Un agente potrebbe superare tutti i test di valutazione ma, ad esempio, comunque fornire una risposta inappropriata a una domanda. I clienti dovrebbero comunque utilizzare recensioni responsabili con IA e filtri di sicurezza dei contenuti; Le valutazioni non sostituiscono quelle recensioni e filtri.
Come funziona la valutazione degli agenti
Copilot Studio utilizza un caso di prova per la valutazione di ogni agente. Un caso di prova è un singolo messaggio o domanda che simula ciò che un utente chiederebbe al tuo agente. Un caso di prova può includere anche la risposta che ti aspetti che il tuo agente risponda. Per esempio:
La domanda: quali sono i vostri orari di lavoro?
La risposta prevista: Siamo aperti dalle 9:00 alle 17:00 dal lunedì al venerdì.
Utilizzando la valutazione degli agenti, puoi generare, importare o scrivere manualmente un gruppo di casi di test. Questo gruppo di casi di test è chiamato set di test. Un set di test ti permette di:
Esegui più casi di test che coprono una vasta gamma di capacità contemporaneamente, invece di porre al tuo agente una domanda alla volta.
Analizza le prestazioni del tuo agente con un punteggio aggregato facilmente digeribile e approfondisci anche i singoli casi di test.
Testa le modifiche ai tuoi agenti usando lo stesso set di test, così da avere uno standard obiettivo per misurare e confrontare le variazioni nelle prestazioni.
Crea rapidamente nuovi set di test o modifica quelli esistenti per coprire le capacità o i requisiti mutevoli degli agenti.
Il set di test include anche i metodi di prova che vuoi utilizzare. Puoi misurare le prestazioni del tuo agente in base a:
Corrispondenza esatta o corrispondenza per parole chiave: quanto corrisponde la risposta del tuo agente a una domanda che ti aspetti.
Somiglianza semantica: quanto la risposta del tuo agente corrisponde all'idea o all'intento della risposta che ti aspetti.
Qualità: Quanto bene funzionano le risposte del tuo agente utilizzando una valutazione basata su LLM.
Puoi anche scegliere un profilo utente per agire come utente che invia le domande. L'agente può essere configurato per rispondere a utenti diversi in modi differenti, oppure consentire l'accesso alle risorse in modi differenti.
Quando selezioni un set di test ed esegui una valutazione dell'agente, Copilot Studio invia le domande nei casi di test, registra le risposte dell'agente, confronta queste risposte con le risposte attese o con uno standard di qualità e assegna un punteggio a ogni caso di test. Puoi anche vedere i dettagli, la trascrizione e la mappa delle attività per ogni caso di test e quali risorse il tuo agente ha utilizzato per creare la risposta.
Test chat contro valutazione dell'agente
Ogni metodo di test ti offre diverse intuizioni sulle qualità e sul comportamento del tuo agente:
Riceve e risponde a una domanda alla volta. È difficile ripetere gli stessi test più volte.
Ti permette di testare un'intera sessione contenente più messaggi.
Ti permette di interagire con il tuo agente come utente tramite un'interfaccia di chat.
Valutazione dell'agente:
Può creare ed eseguire più casi di test contemporaneamente. Puoi ripetere i test usando lo stesso set di test.
Posso testare solo una domanda e una risposta per ogni caso di test. Non mette alla prova una sessione conversazionale completa.
Scegli profili utente diversi per simulare utenti diversi senza dover completare le interazioni da solo.
Quando metti alla prova un agente, usa sia la chat di test che la valutazione dell'agente per avere un quadro completo del tuo agente.