Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
La valutazione dell'agente dovrebbe essere un processo iterativo che inizia dalla fase di immaginazione e progettazione dell'agente, proseguendo fino al deployment dell'agente e al rilevamento della regressione. Questo modello fornisce gli elementi essenziali per costruire set di test di valutazione e come implementare e iterare attraverso una struttura a quattro fasi durante tutto il ciclo di vita di un agente.
- Fase 1: Costruire set di test di valutazione di base
- Fase 2: Stabilire una baseline, iterare e affinare l'istruzione del set di test e dell'agente
- Fase 3: Implementare un'espansione sistematica (regressione, variazione, diagnostica, casi limite)
- Fase 4: Stabilire un'operazione di valutazione continua del miglioramento della qualità
Suggerimento
Scarica il modello di checklist modificabile.
Fase 1: Costruire set di test di valutazione di base
Obiettivo: Creare ed eseguire un set di test di valutazione di base che valuti gli scenari fondamentali dell'agente.
Un insieme di test di valutazione è un gruppo di casi di test. Un caso di prova è una coppia individuale di prompt-response-response per valutare la risposta di un agente a una domanda specifica. Include un prompt di test e una risposta attesa opzionale (asserzione) che si manifesta direttamente dal requisito dell'istruzione dell'agente. Un caso di prova dovrebbe anche specificare i criteri di accettazione e il metodo di prova per valutarne la qualità.
| Scenario agente1 | Prompt del test (Esempio di domanda per l'agente) |
Risposta prevista | Criteri diaccettazione 2 (Definisci come appare una risposta di successo: cosa passa e cosa no) |
|---|---|---|---|
| L'agente dovrebbe rispondere ai contenuti delle policy basandosi sull'articolo di conoscenza delle politiche. | "Quanti giorni di malattia ha un dipendente?" | "30 giorni. <citazione>" | La risposta deve contenere il testo esatto della conoscenza della policy e la corrispondenza del testo. La risposta deve includere una citazione. |
| L'agente non dovrebbe rispondere a domande oltre l'articolo di conoscenza delle politiche. Risposte dirette al supporto umano delle risorse umane. | "Quanti giorni di malattia ha un dipendente?" | "Il documento della politica non specifica i giorni di malattia. Consulta le Risorse Umane sulla tua politica sui congedi per malattia." | La risposta a un caso proibito deve essere indirizzata al supporto umano delle risorse umane. |
Suggerimento
1Scenario dell'agente: Un set di test di base dovrebbe includere casi di test che coprono gli scenari chiave o i casi d'uso dell'agente. Usa lo scenario dell'agente come guida e concentrati su ciò che l'agente deve gestire o evitare. Questo processo ti aiuta a compilare una lista mirata di prompt di test e dovrebbe essere strettamente coordinato con lo sviluppo delle istruzioni per agenti. Per determinare il numero corretto di casi di test, inizia con un prompt di test per ogni scenario chiave. Inizia con un piccolo set di casi di test, poi itera e affina man mano che acquisisci informazioni e migliori la copertura.
2Criteri di accettazione: Definire chiaramente cosa costituisce il successo. Questa definizione può essere difficile all'inizio, quindi considera di perfezionare i tuoi criteri tramite l'iterazione. Esegui il prompt di test, rivedi la risposta e valutane la qualità chiedendo: risponde alla domanda principale? Utilizza le informazioni corrette? Il tono e lo stile sono appropriati? Rispetta i permessi di condivisione? Le tue intuizioni da queste domande ti aiutano a stabilire criteri di accettazione e, se necessario, a stabilire una risposta attesa.
Fase 2: Stabilire una base e migliorare
Obiettivo: Effettuare valutazioni e stabilire metriche di riferimento per fare benchmark e migliorare.
Puoi eseguire la valutazione manualmente o utilizzare strumenti specializzati. Per la valutazione manuale, invia il prompt di test all'agente, rivedi la risposta, usa il giudizio umano per determinare se soddisfa i criteri di accettazione e registra il risultato. Microsoft offre strumenti per la valutazione degli agenti, inclusa la funzione di valutazione degli agenti di Copilot Studio.
Stabilire la base
- Esegui il set di test fondamentale contro l'agente.
- Documenta se è passato o fallito per ogni caso di test.
- Calcola il tasso di superamento complessivo: ______%.
- Registra la versione dell'agente e la data di base: ___________.
Analisi della causa radice e iterazione
Rivedere i risultati della valutazione per identificare falsi positivi e veri negativi per ulteriori analisi. Un falso positivo è una risposta contrassegnata come passante ma dovrebbe fallire in base al giudizio umano. Un vero negativo è una risposta correttamente identificata come fallimento. Valuta i casi falliti da due prospettive:
- Problema del caso di test: il prompt, la risposta attesa o il criterio di accettazione sono la causa del fallimento?
- Problema di progettazione dell'agente: Il guasto indica istruzioni dell'agente poco chiare, o difetti nella configurazione delle conoscenze o degli strumenti?
Identifica la causa alla radice e migliora affinando il caso di test o migliorando il design dell'agente.
Suggerimento
Punteggio di superamento della valutazione: Gli agenti possono produrre risposte diverse allo stesso prompt a causa della loro natura probabilistica. Questa variabilità potrebbe far passare o fallire le risposte a seconda di quanto siano rigidi i criteri di ammissione. Per garantire una valutazione affidabile, esegui ogni set di test più volte e calcola il tasso medio di successo. Punta a un tasso di superamento realistico di 80-90%, in base alle esigenze della tua azienda.
Fase 3: Implementare un'espansione sistematica
Obiettivo: Costruire suite di valutazione complete su diverse categorie di qualità degli agenti.
Le fasi 1 e 2 stabilivano il set di test di base per i principali casi d'uso dell'agente. Successivamente, amplia la tua valutazione creando set di test che analizzano diverse categorie di qualità degli agenti. Il seguente elenco suggerisce categorie che affrontano diversi aspetti della qualità.
| Categoria Qualità | Obiettivo |
|---|---|
| Nucleo fondamentale | Il set "must pass". Misura la qualità essenziale della risposta al momento del dispiegamento ed esegue il rilevamento della regressione durante il funzionamento. |
| Robustezza dell'agente | Il valore fondamentale di un agente rispetto al software tradizionale è la sua robustezza nel gestire diversi casi d'uso. Questo valore può includere:
|
| Test di architettura | Valuta le prestazioni funzionali dell'agente. Le dimensioni possono includere:
|
| Casi limite | Come l'agente dovrebbe gestire il caso limite con le barriere di protezione.
|
Suggerimento
Riferimento per lo scopo della categoria:
- Il core fallisce: qualcosa è rotto o non funziona. Indaga sui cambiamenti recenti.
- La robustezza fallisce: l'agente è troppo severo. Potrebbe essere troppo concentrato su formulazioni specifiche.
- L'architettura fallisce: un componente o un workflow specifico necessita di debug.
- I casi limite falliscono: i guardrail devono essere migliorati. Rafforza i confini.
Fase 4: Stabilire un'operazione di valutazione continua del miglioramento della qualità
Obiettivo: Stabilire un monitoraggio continuo della valutazione per mantenere la qualità dell'agente durante il funzionamento.
Una volta che distribuisci un agente in produzione, entra in una fase stabile. Per mantenere la qualità e rilevare rapidamente regressioni o problemi derivanti da cambiamenti di prodotto (come aggiornamenti di modelli o aggiornamenti del sistema di conoscenza) o casi d'uso in evoluzione, imposta un'operazione di valutazione continua. Programma regolari esecuzioni di valutazione o attivale in base a eventi specifici per garantire la qualità.
- Stabilisci una valutazione regolare della manutenzione.
- Fattori suggeriti per la valutazione dell'intera suite:
- Cambiamento del modello
- Importante aggiornamento di configurazione delle conoscenze
- Nuove integrazioni di strumenti o connettori
- Incidente di produzione
Suggerimento
Indicatore di successo: Operativizzi con successo quando puoi rispondere alle preoccupazioni degli stakeholder con dettagli, invece di dire: "L'agente sembra a posto."
Dici: "La conformità alle politiche è a 98%, ma la personalizzazione è scesa a 87%— in particolare, le politiche basate sul tempo indeterminato non vengono applicate. Abbiamo identificato la causa alla radice e stiamo iterando."