Come valutare le app di intelligenza artificiale generativa con Studio AI della piattaforma Azure

Articolo
05/22/2024

Importante

Alcune funzionalità descritte in questo articolo potrebbero essere disponibili solo in anteprima. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Per valutare accuratamente le prestazioni dell'applicazione di intelligenza artificiale generativa quando viene applicata a un set di dati considerevole, è possibile avviare un processo di valutazione. Durante questa valutazione, l'applicazione viene testata con il set di dati specificato e le sue prestazioni vengono misurate in modo quantitativo con metriche matematiche e metriche basate sull'intelligenza artificiale. L'esecuzione di questa valutazione offre informazioni dettagliate complete sulle funzionalità e sulle limitazioni dell'applicazione.

Per eseguire questa valutazione, è possibile usare la funzionalità di valutazione in Studio AI della piattaforma Azure, una piattaforma completa che offre strumenti e funzionalità per valutare le prestazioni e la sicurezza del modello di intelligenza artificiale generativa. In Studio AI della piattaforma Azure è possibile registrare, visualizzare e analizzare le metriche di valutazione dettagliate.

Questo articolo illustra come creare un'esecuzione di valutazione da un set di dati di test o da un flusso con metriche di valutazione predefinite dall'interfaccia utente di Studio AI della piattaforma Azure. Per una maggiore flessibilità, è possibile stabilire un flusso di valutazione personalizzato e usare la funzionalità di valutazione personalizzata. In alternativa, se l'obiettivo è eseguire soltanto un'esecuzione batch senza alcuna valutazione, è anche possibile usare la funzionalità di valutazione personalizzata.

Prerequisiti

Per eseguire una valutazione con le metriche basate sull'intelligenza artificiale, è necessario avere a disposizione quanto segue:

Un set di dati di test in uno dei formati seguenti: csv o jsonl.
Connessione OpenAI di Azure:
La distribuzione di uno di questi modelli: modello GPT 3.5, modello GPT 4 o modello Davinci.

Creare una valutazione con le metriche di valutazione predefinite

Un'esecuzione di valutazione consente di generare gli output delle metriche per ogni riga di dati nel set di dati di test. È possibile scegliere una o più metriche di valutazione per valutare l'output da diversi aspetti. È possibile creare un'esecuzione di valutazione dalle pagine di valutazione e dal prompt flow in Studio AI. Viene quindi visualizzata una procedura guidata per la creazione della valutazione per guidare l'utente nel processo di configurazione di un'esecuzione di valutazione.

Nella pagina della valutazione

Nel menu a sinistra comprimibile selezionare Valutazione>+ Nuova valutazione.

Nella pagina del flusso

Dal menu a sinistra comprimibile selezionare Prompt flow>Valuta>Valutazione integrata.

Informazioni di base

Quando si immette la creazione guidata della valutazione, è possibile specificare un nome facoltativo per l'esecuzione della valutazione e selezionare lo scenario più adatto agli obiettivi dell'applicazione. Attualmente è disponibile il supporto per gli scenari seguenti:

Domanda e risposta con contesto: questo scenario è progettato per le applicazioni che implicano la risposta alle query utente e la fornitura di risposte con informazioni di contesto.
Domanda e risposta senza contesto: questo scenario è progettato per le applicazioni che implicano la risposta alle query utente e la fornitura di risposte senza contesto.

È possibile usare il pannello della Guida per controllare le domande frequenti e avanzare tramite la procedura guidata.

Specificando lo scenario appropriato, è possibile personalizzare la valutazione in base alla natura specifica dell'applicazione, garantendo metriche accurate e pertinenti.

Valutare dai dati: se sono già presenti output generati dal modello in un set di dati di test, ignorare Selezionare un flusso da valutare e passare direttamente al passaggio successivo per configurare i dati di test.
Valutazione dal flusso: se si avvia la valutazione dalla pagina Flusso, il flusso verrà selezionato automaticamente per la valutazione. Se si intende valutare un altro flusso, è possibile selezionarne un altro. È importante notare che all'interno di un flusso potrebbero essere presenti più nodi, ognuno dei quali potrebbe avere un proprio set di varianti. In questi casi, è necessario specificare il nodo e le varianti da valutare durante il processo di valutazione.

Configura i dati test

È possibile scegliere tra set di dati preesistenti o caricare un nuovo set di dati destinato in modo specifico alla valutazione. Il set di dati di test deve usare gli output generati dal modello per la valutazione se non è stato selezionato alcun flusso nel passaggio precedente.

Scegliere un set di dati esistente: è possibile scegliere il set di dati di test dalla raccolta di set di dati stabilita.
Aggiungere un nuovo set di dati: è possibile caricare file dalla risorsa di archiviazione locale. Sono supportati solo i formati di file .csv e .jsonl.
Mapping dei dati per il flusso: se si seleziona un flusso da valutare, assicurarsi che le colonne di dati siano configurate per l'allineamento con gli input necessari al flusso per eseguire un'esecuzione batch, generando l'output per la valutazione. La valutazione verrà quindi eseguita usando l'output del flusso. Configurare quindi il mapping dei dati per gli input di valutazione nel passaggio successivo.

Seleziona metriche

Microsoft supporta due tipi di metriche curate da Microsoft per facilitare una valutazione completa dell'applicazione:

Metriche di prestazioni e qualità: queste metriche valutano la qualità complessiva e la coerenza del contenuto generato.
Metriche di rischio e di sicurezza: queste metriche sono dedicate all'identificazione di potenziali rischi relativi ai contenuti e garantiscono la sicurezza del contenuto generato.

È possibile fare riferimento alla tabella per l'elenco completo delle metriche supportate in ogni scenario. Per informazioni più approfondite su ogni definizione di metrica e su come viene calcolata, vedere Valutazione e monitoraggio delle metriche.

Scenario	Metriche relative a prestazioni e qualità	Metriche di rischio e di sicurezza
Domanda e risposta con contesto	Fondatezza, Pertinenza, Coerenza, Scorrevolezza, Somiglianza GPT, Punteggio F1	Contenuto autolesionista, contenuto di odio e ingiustizia, contenuto violento, contenuto sessuale
Domanda e risposta senza contesto	Coerenza, Scorrevolezza, Somiglianza GPT, Punteggio F1	Contenuto autolesionista, contenuto di odio e ingiustizia, contenuto violento, contenuto sessuale

Quando si usano metriche per la valutazione della qualità e delle prestazioni basate sull'IA, è necessario specificare un modello GPT per il processo di calcolo. Scegliere una connessione OpenAI di Azure e una distribuzione con GPT-3.5, GPT-4 o il modello Davinci per i calcoli.

Per le metriche di rischio e sicurezza, non è necessario fornire una connessione e una distribuzione. Il servizio back-end di valutazione della sicurezza di Studio AI della piattaforma Azure effettua il provisioning di un modello GPT-4 in grado di generare punteggi di gravità del rischio di contenuto e ragionamenti per valutare i danni di contenuto dell'applicazione.

È possibile impostare la soglia per calcolare il tasso di difetti per le metriche di rischio e sicurezza. Il tasso di difetti viene calcolato prendendo una percentuale di istanze con livelli di gravità (molto bassa, bassa, media, alta) al di sopra di una soglia. Per impostazione predefinita, la soglia viene impostata su "Medium".

Nota

Le metriche di sicurezza e di rischio assistite dall'intelligenza artificiale sono ospitate dal servizio back-end di valutazione della sicurezza di Studio AI della piattaforma Azure, disponibili solo nelle aree seguenti: Stati Uniti orientali 2, Francia centrale, Regno Unito meridionale, Svezia centrale

Mapping dei dati per la valutazione: è necessario specificare le colonne di dati nel set di dati corrispondenti agli input necessari nella valutazione. Metriche di valutazione diverse richiedono tipi distinti di input di dati per ottenere calcoli accurati.

Nota

Se si esegue la valutazione dai dati, "answer" deve eseguire il mapping alla colonna di risposte nel set di dati ${data$answer}. Se si esegue la valutazione dal flusso, "answer" deve provenire dall'output ${run.outputs.answer}del flusso.

Per indicazioni sui requisiti specifici per il mapping dei dati per ogni metrica, fare riferimento alle informazioni fornite nella tabella:

Requisiti per le metriche di risposta alla domanda

Metric	Domanda	Risposta	Contesto	Verità di base
Allineamento	Obbligatorio: Str	Obbligatorio: Str	Obbligatorio: Str	N/D
Coerenza	Obbligatorio: Str	Obbligatorio: Str	N/D	N/D
Scorrevolezza	Obbligatorio: Str	Obbligatorio: Str	N/D	N/D
Pertinenza	Obbligatorio: Str	Obbligatorio: Str	Obbligatorio: Str	N/D
Somiglianza GPT	Obbligatorio: Str	Obbligatorio: Str	N/D	Obbligatorio: Str
Punteggio F1	Obbligatorio: Str	Obbligatorio: Str	N/D	Obbligatorio: Str
Contenuto correlato ad autolesionismo	Obbligatorio: Str	Obbligatorio: Str	N/D	N/D
Contenuto odioso e fazioso	Obbligatorio: Str	Obbligatorio: Str	N/D	N/D
Contenuto violento	Obbligatorio: Str	Obbligatorio: Str	N/D	N/D
Contenuto sessuale	Obbligatorio: Str	Obbligatorio: Str	N/D	N/D

Domanda: la domanda posta dall'utente nella coppia Domanda-Risposta
Risposta: risposta alla domanda generata dal modello
Contesto: origine in base alla quale viene generata la risposta (ovvero documenti di base)
Verità di base: la risposta alla domanda generata dall'utente o dall'essere umano come risposta vera

Verifica e termina

Dopo aver completato tutte le configurazioni necessarie, è possibile esaminare e procedere selezionando "Invia" per inviare l'esecuzione della valutazione.

Creare una valutazione con un flusso di valutazione personalizzato

È possibile sviluppare metodi di valutazione personalizzati:

Dalla pagina del flusso: dal menu a sinistra collapsibile selezionare Flusso di richiesta>Valuta>valutazione personalizzata.

Visualizzare e gestire gli analizzatori nella libreria dell'analizzatore

La libreria dell'analizzatore è una posizione centralizzata che consente di visualizzare i dettagli e lo stato degli analizzatori. È possibile visualizzare e gestire analizzatori curati da Microsoft.

Suggerimento

È possibile usare analizzatori personalizzati tramite l'SDK del flusso di richiesta. Per altre informazioni, vedere Valutare con l'SDK del prompt flow.

La libreria dell'analizzatore abilita anche la gestione delle versioni. È possibile confrontare versioni diverse del lavoro, ripristinare le versioni precedenti, se necessario, e collaborare con altri utenti più facilmente.

Per usare la libreria dell'analizzatore in AI Studio, passare alla pagina Valutazione del progetto e selezionare la scheda Libreria analizzatore.

È possibile selezionare il nome dell'analizzatore per visualizzare altri dettagli. È possibile visualizzare il nome, la descrizione e i parametri e controllare i file associati all'analizzatore. Ecco alcuni esempi di analizzatori curati da Microsoft:

Per gli analizzatori di prestazioni e qualità curati da Microsoft, è possibile visualizzare la richiesta di annotazione nella pagina dei dettagli. È possibile adattare queste richieste al proprio caso d'uso modificando i parametri o i criteri in base ai dati e agli obiettivi con l'SDK del flusso di richiesta. Ad esempio, è possibile selezionare Groundedness-Evaluator e controllare il file Prompty che mostra come calcolare la metrica.
Per gli analizzatori di rischi e sicurezza curati da Microsoft, è possibile visualizzare la definizione delle metriche. Ad esempio, è possibile selezionare Self-Harm-Related-Content-Evaluator e scoprire cosa significa e come Microsoft determina i vari livelli di gravità per questa metrica di sicurezza

Passaggi successivi

Altre informazioni su come valutare le applicazioni di intelligenza artificiale generative:

Share via