Condividi tramite


Definire "qualità": Set di Valutazione della Qualità

Questo articolo descrive i set di valutazione e come consentono di garantire la qualità dell'applicazione.

Che cos'è un set di valutazione?

Per misurare la qualità, Databricks consiglia di creare un set di valutazione con etichetta umana. Un set di valutazione è un set curato e rappresentativo di query, insieme alle risposte alla verità sul terreno e (facoltativamente) ai documenti di supporto corretti che devono essere recuperati. L'input umano è fondamentale in questo processo, in quanto garantisce che il set di valutazione rifletta accuratamente le aspettative e i requisiti degli utenti finali.

La selezione delle etichette umane può richiedere molto tempo. È possibile iniziare creando un set di valutazione che include solo domande e aggiungere le risposte alla verità di base nel tempo. Mosaic AI Agent Evaluation può valutare la qualità della catena senza verità di riferimento, ma, se questa è disponibile, calcola metriche aggiuntive come la correttezza delle risposte.

Elementi di un set di valutazione valido

Un set di valutazione valido presenta le caratteristiche seguenti:

  • Rappresentativo: Riflette in modo accurato la varietà di richieste che l'applicazione incontrerà nell'ambiente di produzione.
  • Impegnativo: Il set deve includere casi difficili e diversi per testare efficacemente le funzionalità del modello. Idealmente, include esempi di attacco, come domande che tentano l'iniezione di prompt o domande che tentano di far generare risposte inappropriate dal modello di linguaggio di grandi dimensioni (LLM).
  • Aggiornamento continuo: Il set deve essere aggiornato periodicamente per riflettere il modo in cui l'applicazione viene usata nell'ambiente di produzione, la modifica della natura dei dati indicizzati e le eventuali modifiche ai requisiti dell'applicazione.

Databricks consiglia almeno 30 domande nel set di valutazione e idealmente da 100 a 200. I set di valutazione migliori cresceranno nel tempo per contenere 1.000 domande.

Set di addestramento, test e validazione

Per evitare l'overfitting, Databricks consiglia di suddividere il set di valutazione in set di training, test e convalida:

  • Set di addestramento: ~70% delle domande. Utilizzato per una valutazione iniziale di ogni esperimento per individuare quelli con il maggiore potenziale.
  • Set di test: ~20% di domande. Usato per valutare gli esperimenti con le prestazioni più elevate del set di training.
  • Set di convalida: ~10% delle domande. Usato per un controllo di convalida finale prima di distribuire un esperimento nell'ambiente di produzione.

Mosaic AI Agent Evaluation consente di creare un set di valutazione fornendo un'interfaccia di chat basata sul Web per gli stakeholder per fornire commenti e suggerimenti sugli output dell'applicazione. Gli output della catena e il feedback degli stakeholder vengono salvati in tabelle Delta, che possono quindi essere curate in un set di valutazione. Consultare curare un set di valutazione nella sezione implementazione di questo cookbook per istruzioni dettagliate con codice di esempio.