Share via


Valutare manualmente le richieste nel playground di Studio AI della piattaforma Azure

Importante

Alcune funzionalità descritte in questo articolo potrebbero essere disponibili solo in anteprima. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Quando si inizia a usare la progettazione dei prompt, è consigliabile testare input diversi uno alla volta per valutare l'efficacia della richiesta. Questa operazione può richiedere molto tempo. Ciò è dovuto al fatto che è importante controllare se i filtri di contenuto funzionano in modo appropriato, se la risposta è accurata e altro ancora.

Per semplificare questo processo, è possibile usare la valutazione manuale in Studio AI della piattaforma Azure, uno strumento di valutazione che consente di eseguire continuamente l'iterazione e valutare la richiesta rispetto ai dati di test in un'unica interfaccia. È anche possibile valutare manualmente gli output, le risposte del modello, per ottenere maggiore attendibilità nella richiesta.

La valutazione manuale consente di iniziare a comprendere il livello di attendibilità del prompt e l'iterazione del prompt.

Questo articolo illustra come:

  • Generare i risultati della valutazione manuale
  • Valutare le risposte del modello
  • Scorrere il prompt e rivalutare
  • Salvare e confrontare i risultati
  • Valutare con le metriche predefinite

Prerequisiti

Per generare risultati di valutazione manuali, è necessario disporre degli elementi seguenti:

  • Set di dati di test in uno dei formati seguenti: csv o jsonl. Se non si dispone di un set di dati, è anche possibile immettere i dati manualmente dall'interfaccia utente.

  • La distribuzione di uno di questi modelli: modello GPT 3.5, modello GPT 4 o modello Davinci. Per altre informazioni su come creare una distribuzione, vedere Distribuire modelli.

Nota

La valutazione manuale è supportata solo per i modelli OpenAI di Azure in questo momento per i tipi di attività di chat e completamento.

Generare i risultati della valutazione manuale

Dal Playground selezionare Valutazione manuale per avviare il processo di revisione manuale delle risposte del modello in base ai dati e alla richiesta del test. La richiesta viene automaticamente passata alla Valutazione manuale e ora è sufficiente aggiungere dati di test per valutare la richiesta.

Questa operazione può essere eseguita manualmente usando le caselle di testo nella colonna Input.

È anche possibile Importare dati per scegliere uno dei set di dati esistenti precedenti nel progetto o caricare un set di dati in formato CSV o JSONL. Dopo aver caricato i dati, verrà richiesto di eseguire il mapping delle colonne in modo appropriato. Al termine e selezionare Importa, i dati vengono popolati in modo appropriato nelle colonne seguenti.

Screenshot della generazione di risultati di valutazione manuale.

Nota

È possibile aggiungere fino a 50 righe di input alla valutazione manuale. Se i dati di test hanno più di 50 righe di input, nella colonna di input verranno caricate le prime 50 righe.

Dopo aver aggiunto i dati, è possibile selezionare Esegui per popolare la colonna di output con la risposta del modello.

Valutare le risposte del modello

Per valutare l'output della richiesta, è possibile fornire una valutazione di pollice verso l'alto o verso il basso per ogni risposta. In base alle valutazioni fornite, è possibile visualizzare questi punteggi di risposta nei riepiloghi a colpo d'occhio.

Screenshot dei punteggi di risposta nei riepiloghi a colpo d'occhio.

Scorrere il prompt e rivalutare

In base al riepilogo, è possibile apportare modifiche al prompt. È possibile usare i controlli prompt precedenti per modificare la configurazione della richiesta. È possibile aggiornare il messaggio di sistema, modificare il modello o i parametri.

Dopo aver apportato le modifiche, è possibile scegliere di rieseguire tutto per aggiornare l'intera tabella o concentrarsi sulla riesecuzione di righe specifiche che non soddisfano le aspettative la prima volta.

Salvare e confrontare i risultati

Dopo aver popolato i risultati, è possibile salvare i risultati per condividere lo stato di avanzamento con il team o continuare la valutazione manuale da dove è stata interrotta in un secondo momento.

Screenshot dei risultati del salvataggio.

È anche possibile confrontare i pollici verso l'alto e il basso nelle diverse valutazioni manuali salvandoli e visualizzandoli nella scheda Valutazione in Valutazione manuale.

Passaggi successivi

Altre informazioni su come valutare le applicazioni di intelligenza artificiale generativa:

Altre informazioni sulle tecniche di mitigazione dei danni.