Condividi tramite


Eseguire test con conversazioni a più turni

La valutazione conversazionale consente di valutare il comportamento generale dell'agente rispetto a un'interazione più lunga. Riflette il modo in cui gli utenti reali interagiscono con gli agenti, in cui ogni risposta dipende dal contesto precedente all'interno di una conversazione in corso. È possibile usare queste valutazioni per determinare se un agente può gestire il contesto, richiedere chiarimenti e completare attività in più passaggi.

È anche possibile eseguire valutazioni di risposta singola, utili per quando si vuole testare l'agente su come risponde a domande specifiche, sulle funzionalità chiamate e sull'esatta formulazione usata nelle risposte.

Le valutazioni usano set di test. Un set di test per le valutazioni conversazionali è costituito da un gruppo di fino a 20 test case. Quando esegui una valutazione dell'agente, selezioni un set di test e Copilot Studio esegue ogni caso di test in quel set contro il tuo agente.

È possibile creare test case all'interno di un set di test importandoli usando un foglio di calcolo o usando l'intelligenza artificiale per generare messaggi in base alla progettazione e alle risorse dell'agente. Puoi quindi scegliere come misurare la qualità delle risposte del tuo agente per ogni caso di test all'interno di un set di test.

Per maggiori informazioni su come funziona la valutazione degli agenti, vedi Informazioni sulla valutazione degli agenti.

Per imparare come modificare un set di test esistente, vedi Modifica i dettagli di un set di test.

Importante

I risultati dei test sono disponibili in Copilot Studio per 89 giorni. Per salvare i risultati dei test per un periodo più lungo, esporta i risultati in un file CSV.

Creare un set di test di conversazione

  1. Vai alla pagina Valutazione del tuo agente.

Screenshot che mostra come selezionare la scheda Valutazione quando la selezione delle schede è compressa a causa della dimensione dello schermo.

  1. Selezionare Nuova valutazione e quindi Conversazione.

    Screenshot che mostra l'opzione di conversazione selezionata per la creazione di set di test.

  2. È possibile creare test case a più turni usando uno dei metodi seguenti:

    • Set di conversazioni rapide: genera automaticamente 10 conversazioni brevi in base alla descrizione, alle istruzioni e alle funzionalità dell'agente.

    • Set di conversazioni completo: generare conversazioni usando le conoscenze dell'agente o gli argomenti definiti. In questa opzione è possibile selezionare la creazione di conversazioni brevi o lunghe.

    • Usare la chat di test: convertire la chat di test più recente in un test case.

Annotazioni

I set di test di conversazione supportano fino a 20 casi di test. Ogni test case supporta fino a 12 messaggi totali, ovvero 6 coppie di domande e risposte.

  1. In Nome digitare un nome per il set di test.

  2. Modificare o aggiungere i metodi di test da usare. Per i set di test di conversazione, è possibile aggiungere la qualità generale, la corrispondenza delle parole chiave, la corrispondenza delle funzionalità o i metodi di test personalizzati di classificazione .

    • Aggiungi un nuovo metodo:
      1. Seleziona Aggiungi metodo di test.
      2. Seleziona tutti i metodi con cui vuoi testare, poi seleziona OK. Puoi aggiungere più metodi.
      3. Per alcuni metodi, imposta un punteggio di superamento, poi seleziona OK. Il punteggio di passaggio determina quale punteggio porta a un passaggio o a un fallimento.
      4. Alcuni metodi richiedono di aggiungere risposte attese o parole chiave per ciascuno dei tuoi casi di test. Per ulteriori informazioni, vedi Metodi di valutazione Scegli.
    • Seleziona un metodo di test esistente da modificare o eliminare.
    Metodo di test Misure Tipo di set di test Punteggio Configurations
    Qualità generale Qual è la qualità delle risposte di un test case in base a qualità specifiche Risposta singola o conversazione Valutato su 100% Nessuno
    Confronta il significato Quanto bene corrisponde il significato della risposta del caso di prova a quella attesa Risposta singola Valutato su 100% Punteggio di superamento, risposta attesa
    Utilizzo delle capacità Indica se il test case ha usato tutte o alcune delle risorse previste. Risposta singola Superato/non superato Capacità attese
    Corrispondenza delle parole chiave Se il caso di prova utilizzasse tutte o una delle parole chiave o frasi attese Risposta singola o conversazione Superato/non superato Parole chiave o frasi attese
    Somiglianza del testo Quanto corrisponde il testo della risposta del caso di prova con la risposta attesa Risposta singola Valutato su 100% Punteggio di superamento, risposta attesa
    Corrispondenza esatta Se la risposta del caso di prova corrisponde esattamente a quella attesa Risposta singola Superato/non superato Risposta attesa
  3. Modifica i dettagli dei casi di test. Tutti i metodi di test, ad eccezione della qualità generale, richiedono risposte o parole chiave previste. Per altre informazioni sulla modifica dei test case, vedere Modificare un set di test.

  4. Seleziona profilo utente, poi seleziona o aggiungi l'account che vuoi usare per questo set di test, oppure continua senza autenticazione. La valutazione utilizza questo account per connettersi a fonti di conoscenza e strumenti durante i test. Per informazioni sull'aggiunta e gestione dei profili utente, vedi Gestisci profili e connessioni utente.

Annotazioni

Il test automatizzato utilizza l'autenticazione dell'account di test selezionato. Se il tuo agente ha fonti di conoscenza o connessioni che richiedono un'autenticazione specifica, seleziona l'account appropriato per il test.

  1. Modificare o creare altri test case. Per altre informazioni, vedere Modificare i test case all'interno di un set di test.

  2. Seleziona Salva per aggiornare il set di test senza eseguire i casi di test oppure Valuta per eseguire immediatamente il set di test.