Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Man mano che gli agenti AI assumono ruoli critici nei processi aziendali, la necessità di test affidabili e ripetibili diventa essenziale. La valutazione dell'agente ti permette di generare test che simulano scenari reali per il tuo agente. Questi test riguardano più domande e conversazioni più velocemente rispetto ai test manuali, caso per caso. È quindi possibile misurare l'accuratezza, la pertinenza e la qualità delle risposte delle interazioni dell'agente, in base alle informazioni a cui l'agente può accedere. Utilizzando i risultati del set di test, puoi ottimizzare il comportamento del tuo agente e verificare che soddisfi i requisiti di business e qualità.
Perché usare i test automatici?
La valutazione degli agenti fornisce test automatizzati e strutturati. Aiuta a individuare i problemi precocemente, riduce il rischio di risposte errate e mantiene la qualità man mano che l'agente evolve. Questo processo porta una forma automatizzata e ripetibile di assicurazione della qualità al test degli agenti. Garantisce che l'agente rispetti gli standard di accuratezza e affidabilità della tua azienda e offre trasparenza su come si comporta. Ha punti di forza diversi rispetto al test tramite la chat di test.
La valutazione degli agenti misura la correttezza e le prestazioni, non l'etica dell'IA o i problemi di sicurezza. Un agente potrebbe superare tutti i test di valutazione ma, ad esempio, comunque fornire una risposta inappropriata a una domanda. I clienti dovrebbero comunque utilizzare recensioni responsabili con IA e filtri di sicurezza dei contenuti; Le valutazioni non sostituiscono quelle recensioni e filtri.
Limitazioni del Cloud della Comunità Governativa
La valutazione degli agenti negli ambienti Government Community Cloud (GCC) presenta le seguenti limitazioni:
I produttori non possono aggiungere un profilo utente ai loro set di test. Tuttavia, i produttori possono comunque eseguire valutazioni senza un profilo utente.
I produttori non possono usare il metodo del test di somiglianza per le valutazioni. Sono disponibili tutti gli altri metodi di prova.
Come funziona la valutazione degli agenti
Copilot Studio usa un caso di test per ogni valutazione dell'agente. Un test case è una singola interazione che simula l'interazione di un utente con l'agente. L'interazione può essere una singola domanda o un'intera conversazione.
Un caso di prova può includere anche la risposta che ti aspetti che il tuo agente risponda. Per esempio:
La domanda: quali sono i vostri orari di lavoro?
La risposta prevista: Siamo aperti dalle 9:00 alle 17:00 dal lunedì al venerdì.
Utilizzando la valutazione degli agenti, puoi generare, importare o scrivere manualmente un gruppo di casi di test. Questo gruppo di casi di test è chiamato set di test. Un set di test ti permette di:
Esegui più casi di test che coprono una vasta gamma di capacità contemporaneamente, invece di porre al tuo agente una domanda alla volta.
Analizza le prestazioni del tuo agente con un punteggio aggregato facilmente digeribile e approfondisci anche i singoli casi di test.
Testa le modifiche ai tuoi agenti usando lo stesso set di test, così da avere uno standard obiettivo per misurare e confrontare le variazioni nelle prestazioni.
Crea rapidamente nuovi set di test o modifica quelli esistenti per coprire le capacità o i requisiti mutevoli degli agenti.
Ogni set di test può valutare il tuo agente utilizzando più metodi contemporaneamente.
È anche possibile scegliere un profilo utente per agire come utente stimolato. L'agente può essere configurato per rispondere a utenti diversi in modi differenti, oppure consentire l'accesso alle risorse in modi differenti.
Quando si seleziona un set di test e esegui una valutazione dell'agente, Copilot Studio invia le domande nei test case, registra le risposte dell'agente, confronta le risposte rispetto alle risposte previste o a uno standard di qualità e assegna un punteggio a ogni test case. Puoi anche vedere i dettagli, la trascrizione e la mappa delle attività per ogni caso di test e quali risorse il tuo agente ha utilizzato per creare la risposta.
Test chat contro valutazione dell'agente
Ogni metodo di test ti offre diverse intuizioni sulle qualità e sul comportamento del tuo agente:
Riceve e risponde a una domanda alla volta. È difficile ripetere gli stessi test più volte.
Ti permette di testare un'intera sessione contenente più messaggi.
Ti permette di interagire con il tuo agente come utente tramite un'interfaccia di chat.
Valutazione dell'agente:
Può creare ed eseguire più test case contemporaneamente usando un set di test. È possibile ripetere i test eseguendo test con lo stesso set di test.
Può testare una domanda e una risposta per ogni test case o una conversazione per ogni test case. Tuttavia, si ha meno controllo sulle conversazioni di quanto si farebbe quando si usa la chat di test.
Scegli profili utente diversi per simulare utenti diversi senza dover completare le interazioni da solo.
Quando metti alla prova un agente, usa sia la chat di test che la valutazione dell'agente per avere un quadro completo del tuo agente.