Informazioni sulla valutazione degli agenti

Man mano che gli agenti AI assumono ruoli critici nei processi aziendali, la necessità di test affidabili e ripetibili diventa essenziale. La valutazione dell'agente ti permette di generare test che simulano scenari reali per il tuo agente. Questi test riguardano più domande e conversazioni più velocemente rispetto ai test manuali, caso per caso. È quindi possibile misurare l'accuratezza, la pertinenza e la qualità delle risposte delle interazioni dell'agente, in base alle informazioni a cui l'agente può accedere. Utilizzando i risultati del set di test, puoi ottimizzare il comportamento del tuo agente e verificare che soddisfi i requisiti di business e qualità.

Perché usare i test automatici?

La valutazione degli agenti fornisce test automatizzati e strutturati. Aiuta a individuare i problemi precocemente, riduce il rischio di risposte errate e mantiene la qualità man mano che l'agente evolve. Questo processo porta una forma automatizzata e ripetibile di assicurazione della qualità al test degli agenti. Assicura che l'agente soddisfi gli standard di accuratezza e affidabilità dell'azienda e offra trasparenza sulle prestazioni. Ha punti di forza diversi rispetto al test tramite la chat di test.

È possibile eseguire valutazioni e visualizzare i risultati usando l'interfaccia Copilot Studio, tramite le API REST di Power Platform o tramite aggiungere azioni in strumenti, flussi o Power Automate.

La valutazione degli agenti misura la correttezza e le prestazioni, non l'etica dell'IA o i problemi di sicurezza. Un agente potrebbe superare tutti i test di valutazione ma, ad esempio, comunque fornire una risposta inappropriata a una domanda. I clienti devono comunque usare revisioni di intelligenza artificiale responsabili e filtri di sicurezza dei contenuti; le valutazioni non sostituiscono tali recensioni e filtri.

Limitazioni del Cloud della Comunità Governativa

La valutazione degli agenti negli ambienti Government Community Cloud (GCC) presenta le seguenti limitazioni:

I produttori non possono aggiungere un profilo utente ai loro set di test. Tuttavia, i produttori possono comunque eseguire valutazioni senza un profilo utente.
I produttori non possono usare il metodo del test di somiglianza per le valutazioni. Sono disponibili tutti gli altri metodi di prova.

Come funziona la valutazione degli agenti

Copilot Studio usa un caso di test per ogni valutazione dell'agente. Un test case è una singola interazione che simula l'interazione di un utente con l'agente. L'interazione può essere una singola domanda o un'intera conversazione.

Un caso di prova può includere anche la risposta che ti aspetti che il tuo agente risponda. Per esempio:

La domanda: quali sono i vostri orari di lavoro?
La risposta prevista: Siamo aperti dalle 9:00 alle 17:00 dal lunedì al venerdì.

Utilizzando la valutazione degli agenti, puoi generare, importare o scrivere manualmente un gruppo di casi di test. Questo gruppo di casi di test è chiamato set di test. Un set di test ti permette di:

Esegui più casi di test che coprono una vasta gamma di capacità contemporaneamente, invece di porre al tuo agente una domanda alla volta.
Analizza le prestazioni del tuo agente con un punteggio aggregato facilmente digeribile e approfondisci anche i singoli casi di test.
Testa le modifiche ai tuoi agenti usando lo stesso set di test, così da avere uno standard obiettivo per misurare e confrontare le variazioni nelle prestazioni.
Crea rapidamente nuovi set di test o modifica quelli esistenti per coprire le capacità o i requisiti mutevoli degli agenti.

Ogni set di test può valutare il tuo agente utilizzando più metodi contemporaneamente.

È anche possibile scegliere un profilo utente per agire come utente stimolato. L'agente può essere configurato per rispondere a utenti diversi in modi differenti, oppure consentire l'accesso alle risorse in modi differenti.

Quando si seleziona un set di test e esegui una valutazione dell'agente, Copilot Studio invia le domande nei test case, registra le risposte dell'agente, confronta le risposte rispetto alle risposte previste o a uno standard di qualità e assegna un punteggio a ogni test case. Puoi anche vedere i dettagli, la trascrizione e la mappa delle attività per ogni caso di test e quali risorse il tuo agente ha utilizzato per creare la risposta.

Creare una strategia di valutazione completa

Prima di eseguire le valutazioni, definisci cosa rappresenta il successo per il tuo agente e decidi quali scenari sono più rilevanti per i risultati aziendali. Una strategia chiara consente di scegliere i metodi di test corretti, classificare in ordine di priorità i test case ad alto impatto e interpretare i risultati con il contesto corretto.

Usa soluzioni di architettura dell'agente: framework di valutazione per mappare gli obiettivi aziendali con le dimensioni di valutazione misurabili e i metodi di assegnazione dei punteggi.
Usare progettare e attuare la valutazione dell'agente per creare un processo di valutazione ripetibile che supporti miglioramenti continui della qualità.

Integrare valutazioni in flussi automatizzati

La valutazione dell'agente supporta l'automazione in modo che i creatori possano eseguire valutazioni senza intervento manuale. Usando le API REST o i connettori di Power Platform, è possibile attivare a livello di codice le esecuzioni di valutazione e integrare i test in flussi di lavoro automatizzati, ad esempio pipeline di integrazione continua e distribuzione continua (CI/CD). Questo approccio consente di eseguire set di test su larga scala e convalidare il comportamento dell'agente man mano che vengono introdotte modifiche, senza richiedere l'esecuzione manuale in Copilot Studio.

Test chat contro valutazione dell'agente

Ogni metodo di test ti offre diverse intuizioni sulle qualità e sul comportamento del tuo agente:

Chat di test:

Riceve e risponde a una domanda alla volta. È difficile ripetere gli stessi test più volte.
Ti permette di testare un'intera sessione contenente più messaggi.
Ti permette di interagire con il tuo agente come utente tramite un'interfaccia di chat.

Valutazione dell'agente:

Può creare ed eseguire più test case contemporaneamente usando un set di test. È possibile ripetere i test eseguendo test con lo stesso set di test.
Può testare una domanda e una risposta per ogni test case o una conversazione per ogni test case. Tuttavia, si ha meno controllo sulle conversazioni di quanto si farebbe quando si usa la chat di test.
Scegli profili utente diversi per simulare utenti diversi senza dover completare le interazioni da solo.

Quando metti alla prova un agente, usa sia la chat di test che la valutazione dell'agente per avere un quadro completo del tuo agente.

Limitations

Attualmente, la valutazione degli agenti non supporta agenti dati di Fabric.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-27