Eseguire e confrontare valutazioni automatizzate

Completato

Le valutazioni automatizzate all'interno di Fonderia Azure AI eseguono una valutazione assistita dall'intelligenza artificiale che ricorre a LLM, ad esempio GPT-4, per valutare l'output dei sistemi di linguaggio di IA generativa. Questo processo viene ottenuto indicando a un LLM di annotare alcuni aspetti dell'output generato dall'intelligenza artificiale. Ad esempio, si può fornire a GPT-4 una scala di gravità della pertinenza (per esempio fornendo criteri per l'annotazione della pertinenza su una scala da 1 a 5) e poi chiedere a GPT-4 di annotare la pertinenza della risposta di un sistema di intelligenza artificiale a una determinata domanda.

Screenshot dei risultati della valutazione automatizzata in Fonderia Azure AI. Lo screenshot mostra il dashboard delle metriche.

È possibile usare la valutazione assistita dall'intelligenza artificiale per valutare le prestazioni e la sicurezza dell'applicazione di IA generativa. Le valutazioni basate sull'intelligenza artificiale possono essere utili negli scenari in cui la verità di base e le risposte previste non sono disponibili. In molti scenari di intelligenza artificiale generativa, come per le risposte a domande aperte o la scrittura creativa, non esiste una sola risposta corretta, perciò è difficile stabilire la verità di base o le risposte previste necessarie per le metriche tradizionali.

Nel contesto del chatbot Contoso Camping Store, viene fornito un set di dati di test che include l'input di esempio e una risposta generata dal modello, basato sulla configurazione corrente. Ora si eseguirà una valutazione automatizzata per esaminare le prestazioni e la sicurezza del modello.

Configurare ed eseguire la valutazione automatizzata

  1. Nel riquadro di spostamento a sinistra, all'interno della sezione Valutazione e miglioramento, selezionare Valutazione.
  2. Nella scheda Valutazioni automatiche, selezionare Crea una nuova valutazione.
  3. Per la finestra Che cosa si vuole valutare?, selezionare Set di dati.

Informazioni di base

  1. Nel campo Nome valutazione, immettere: automated-eval1
  2. Selezionare Avanti.

Configurare i dati di test

  1. Alla domanda Selezionare i dati da valutare, scegliere Aggiungi il set di dati.
  2. Selezionare Carica file, individuare dove è stato salvato e2e-automated-evaluation-1.jsonl e scegliere il file da caricare.
  3. Selezionare Avanti.

Selezionare le metriche

  1. Per le metriche Qualità IA (IA assistita), selezionare Coerenza , Scorrevolezza, Somiglianza.
  2. Per il campo Connessione selezionare la connessione AzureOpenAI.
  3. Per il campo Nome distribuzione/Modello, selezionare il modello gpt-4o.
  4. Per le Metriche rischi e sicurezza curate da Microsoft, selezionare tutte le metriche.
  5. Per Impostare la soglia per calcolare il tasso di difetto, selezionare Media.
  6. Per la sezione Come viene eseguito il mapping del set di dati all'input di valutazione?, eseguire il mapping dei campi seguenti e selezionare Avanti:
Nome Origine dati
query domanda
Risposta answer
ground_truth ground_truth

Rivedere e completare

  1. Verificare che tutte le configurazioni siano accurate. Se necessario, selezionare l'icona a forma di matita per modificare le configurazioni.
  2. Selezionare Invia.

Nota

L'esecuzione della valutazione può richiedere alcuni minuti. Al termine della valutazione, è possibile visualizzare i risultati passando alla valutazione eseguita nella scheda Valutazioni automatiche.

Esaminare i risultati della valutazione

I risultati della valutazione automatizzata variano a seconda che la valutazione sia influenzata dal modello GPT usato per eseguire la valutazione assistita dall'intelligenza artificiale. Pertanto, la revisione dei risultati forniti è generalizzata e basata su risultati di valutazione automatizzati di esempio. È consigliabile analizzare i risultati di valutazione automatizzati per pensare a potenziali miglioramenti da apportare per ottimizzare i risultati.

  1. Nel riquadro di spostamento a sinistra, all'interno della sezione Valutazione e miglioramento, selezionare Valutazione.
  2. Nella scheda Valutazioni automatizzate, selezionare l'esecuzione della valutazione automated-eval1 dall'elenco per visualizzare altri dettagli nella pagina dei dettagli dell'esecuzione.
  3. Il Dashboard Metrica fornisce le medie per ogni metrica. Passare dalla scheda Qualità IA (IA assistita) a Rischio e sicurezza per analizzare i risultati medi.
  4. La sezione Dettagli dei risultati delle metriche fornisce una suddivisione dei risultati per ogni riga di dati valutata. Scorrere la tabella dei risultati per analizzare i risultati e visualizzare i rispettivi motivi.

Suggerimento

Per altre informazioni sul significato della metrica, selezionare l'icona i per ogni metrica. Inoltre, il punteggio più alto possibile per ogni metrica Qualità IA (IA assistita) è 5.

Decidere la migliore linea d'azione

Ora che si hanno i risultati della valutazione automatizzata, si è in possesso di dati analitici per influenzare e supportare le azioni future. Il messaggio di sistema richiede modifiche? È necessario stabilire un'altra connessione dati? Oppure si sospetta che un altro modello possa fornire risultati migliori? Queste idee sono solo alcune di quelle che potrebbero venire in mente dopo l'analisi dei risultati.

Eseguire una seconda valutazione automatizzata

Per semplificare un confronto completo tra due o più esecuzioni, è possibile selezionare le esecuzioni desiderate e avviare il processo di confronto all'interno di una visualizzazione Elenco o Dashboard. Eseguire un'altra valutazione automatizzata per il modello e confrontare i risultati.

Nota

Il file e2e-automated-evaluation-2.jsonl simula un set di dati fittizio in cui si presuppone che siano state apportate modifiche per migliorare l'output del modello, ad esempio la modifica del messaggio di sistema, la modifica dei filtri del contenuto e/o la preparazione con dati aggiuntivi.

Visualizzazione dashboard

Screenshot del confronto di due valutazioni automatizzate in Fonderia Azure AI. I punteggi sono più alti per la seconda valutazione.

  1. Nel riquadro di spostamento a sinistra, all'interno della sezione Valutazione e miglioramento, selezionare Valutazione.
  2. Creare una nuova valutazione seguendo i passaggi descritti in Configurare ed eseguire un esercizio di valutazione automatizzato e denominare la valutazione automated-eval2. Usare il file e2e-automated-evaluation-2.jsonl come set di dati.
  3. Al termine della valutazione, selezionare entrambe le esecuzioni di valutazione automated-eval1 e automated-eval2 nell'elenco Valutazioni automatizzate.
  4. Selezionare Confronta.
  5. Nella sezione Confronto, passare il puntatore del mouse sul titolo di automated-eval1 e selezionare Imposta come baseline. In questo modo, la valutazione iniziale viene impostata come metrica di base in tutte le metriche di valutazione. Ciò è utile per confrontare un set di baseline di metriche con le valutazioni appena eseguite.
  6. Osservare come le metriche potrebbero cambiare dopo aver apportato modifiche al prompt del sistema o aver perfezionato i dati preparati.
  7. Per una visualizzazione semplificata per osservare le differenze, abilitare l'interruttore Mostra differenze. Questo interruttore modifica la tabella in modo da visualizzare solo le righe che differiscono tra l'esecuzione di base (automated-eval1) e l'esecuzione confrontata (automated-eval2). Questa funzionalità può essere utile per evidenziare le discrepanze tra le esecuzioni e individuare dove potrebbero essere necessari potenziali miglioramenti o modifiche.

Dopo aver apportato modifiche al modello, è stato ottenuto un miglioramento significativo. Una volta che il chatbot è stato implementato e utilizzato dai clienti di Contoso Camping Store, è consigliabile eseguire più esecuzioni di valutazione e confrontare i risultati per analizzare il comportamento del modello.