Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
[Questo articolo fa parte della documentazione non definitiva, pertanto è soggetto a modifiche.]
Quando crei set di test, puoi scegliere tra diversi metodi di test per valutare le risposte del tuo agente: corrispondenza del testo, somiglianza e qualità. Ogni metodo di test ha i propri punti di forza ed è adatto per diversi tipi di valutazioni.
Metodi di test di corrispondenza del testo
I metodi di test delle corrispondenze di testo confrontano le risposte dell'agente alle risposte previste definite nel set di test. Esistono due test di corrispondenza:
La corrispondenza esatta controlla se la risposta dell'agente corrisponde esattamente alla risposta prevista nel test: carattere per carattere, parola per parola. Se è lo stesso, passa. In caso di differenze, l'operazione ha esito negativo. La corrispondenza esatta è utile per risposte brevi e precise, ad esempio numeri, codici o frasi fisse. Non soddisfa le risposte che le persone possono frasare in diversi modi corretti.
La corrispondenza delle parole chiave verifica se la risposta dell'agente contiene alcune delle parole o frasi della risposta attesa che definisci. In caso affermativo, passa. In caso contrario, ha esito negativo. La corrispondenza delle parole chiave è utile quando una risposta può essere formulata in modi corretti diversi, ma i termini chiave o le idee devono comunque essere inclusi nella risposta.
Metodi di test di somiglianza
Il metodo del test di similarità confronta la somiglianza delle risposte dell'agente con le risposte attese che definisci nel tuo set di test. È utile quando una risposta può essere formulata in modi diversi ma corretti, purché il significato o la finalità complessiva rimanga chiara.
Usa una metrica di somiglianza coseno per valutare il modo in cui la risposta dell'agente è simile alla formulazione e al significato della risposta prevista e determina un punteggio. Il punteggio è compreso tra 0 e 1, dove 1 indica che la risposta corrisponde esattamente e 0 indica che non lo fa. Puoi impostare una soglia di punteggio minimo per determinare cosa costituisce un punteggio sufficiente per una risposta.
Metodi di test di qualità
I metodi di test di qualità consentono di decidere se le risposte dell'agente soddisfano gli standard. Questo approccio garantisce che i risultati siano affidabili e facili da spiegare.
Questi metodi usano un modello di linguaggio di grandi dimensioni (LLM) per valutare in che modo un agente risponde alle domande dell'utente. Sono particolarmente utili quando non esiste una risposta esatta prevista, offrendo un modo flessibile e scalabile per valutare le risposte in base ai documenti recuperati e al flusso di conversazione.
I metodi di test di qualità includono due metodi di test:
La qualità generale valuta le risposte degli agenti. Utilizza questi criteri chiave e applica un prompt coerente per guidare il punteggio:
Pertinenza: in quale misura la risposta dell'agente risolve la domanda. Ad esempio, la risposta dell'agente rimane sull'oggetto e risponde direttamente alla domanda?
Attinenza: grado in cui la risposta dell'agente è basata sul contesto fornito. Ad esempio, fa riferimento alla risposta dell'agente o si basa sulle informazioni fornite nel contesto, anziché introdurre informazioni non correlate o non supportate?
Completezza: in quale misura la risposta dell'agente fornisce tutte le informazioni necessarie. Ad esempio, la risposta dell'agente riguarda tutti gli aspetti della domanda e fornisce dettagli sufficienti?
Astensione: indica se l'agente ha provato a fornire una risposta.
Per essere considerata di alta qualità, una risposta deve soddisfare tutti questi criteri chiave. Se un criterio non viene soddisfatto, la risposta viene segnalata per il miglioramento. Questo metodo di assegnazione dei punteggi garantisce che solo le risposte complete e supportate ricevano i primi punteggi. Al contrario, le risposte incomplete o prive di prove di supporto ricevono punteggi inferiori.
Confronta significato valuta il grado di risposta dell'agente che riflette il significato previsto della risposta prevista. Invece di concentrarsi su formulazioni esatte, utilizza la somiglianza tra intenzioni, cioè confronta le idee e il significato dietro le parole per giudicare quanto la risposta sia in linea con ciò che ci si aspettava.
Puoi impostare una soglia di punteggio minimo per determinare cosa costituisce un punteggio sufficiente per una risposta. Il punteggio predefinito per il passaggio è 50. Il metodo di test di confronto del risultato è utile quando una risposta può essere formulata in modi diversi ma corretti, purché il significato o la finalità complessiva rimanga chiara.
Soglie e percentuale di superamento
L'esito positivo di un test case dipende dal metodo di test selezionato e dalla soglia impostata per il superamento dei punteggi.
Ogni metodo di test, eccetto la corrispondenza esatta, produce un punteggio numerico basato su un insieme di criteri di valutazione. Questo punteggio riflette quanto bene la risposta dell'agente soddisfi tali criteri. La soglia è il punteggio di riduzione che separa il passaggio dall'esito negativo. Puoi impostare i punteggi di passaggio per la somiglianza e confrontare test case di significato.
La corrispondenza esatta è un metodo di prova rigoroso che non produce un punteggio numerico. La risposta deve corrispondere esattamente per essere passata. Scegliendo la soglia per un test case, si decide quanto è rigorosa o meno la valutazione. Ogni metodo di test valuta la risposta dell'agente in modo diverso, quindi è importante scegliere quello più adatto ai criteri di valutazione.