Condividi tramite


Come eseguire una valutazione in Azure DevOps (anteprima)

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Questa estensione Azure DevOps abilita la valutazione offline degli agenti Microsoft Foundry all'interno delle pipeline CI/CD. Semplifica il processo di valutazione offline, in modo da poter identificare potenziali problemi e apportare miglioramenti prima di rilasciare un aggiornamento all'ambiente di produzione.

Per usare questa estensione, fornire un set di dati con query di test e un elenco di analizzatori. Questa attività richiama gli agenti con le query, li valuta e genera un report di riepilogo.

Funzionalità

  • Valutazione degli agenti: Automatizzare la valutazione in fase di pre-produzione degli agenti di Microsoft Foundry nel flusso di lavoro CI/CD.
  • Valutatori: utilizzare qualsiasi valutatore dal catalogo dei valutatori di Foundry.
  • Analisi statistica: i risultati della valutazione includono intervalli di confidenza e test di significatività statistica per determinare se le modifiche sono significative e non a causa di variazioni casuali.

Categorie di analizzatori

Prerequisiti

  • Un progetto. Per altre informazioni, vedere Creare un progetto.
  • Installare l'estensione di valutazione dell'agente AI.

Ingressi dati

Parametri

Nome Obbligatorio? Descrzione
azure-ai-project-endpoint (endpoint del progetto Azure AI) Endpoint del progetto Microsoft Foundry Project.
deployment-name Nome della distribuzione del modello di intelligenza artificiale di Azure da usare per la valutazione.
percorso dati Percorso del file di dati contenente gli analizzatori e le query di input per le valutazioni.
ID agente ID di uno o più agenti da valutare in formato agent-name:version (ad esempio, my-agent:1 o my-agent:1,my-agent:2). Più agenti sono separati da virgole e confrontati con i risultati dei test statistici.
baseline-agent-id NO ID dell'agente di base da confrontare durante la valutazione di più agenti. Se non specificato, viene usato il primo agente.

File di dati

Il file di dati di input deve essere un file JSON con la struttura seguente:

Campo TIPO Obbligatorio? Descrzione
nome corda Nome del set di dati di valutazione.
Valutatori string[] Elenco dei nomi dei valutatori da usare. Consultare l'elenco dei valutatori disponibili nel catalogo dei valutatori del progetto nel portale Foundry: Compilazione >Valutazioni >Catalogo dei valutatori.
data object[] Array di oggetti di input con campi dell'analizzatore facoltativi come query, ground_truth, context. Mappato automaticamente ai valutatori; utilizzare data_mapping per eseguire l'override.
openai_graders oggetto NO Configurazione per analizzatori basati su OpenAI (label_model, score_model, string_check e così via).
parametri_di_valutatore oggetto NO Parametri di inizializzazione specifici dell'analizzatore (ad esempio, soglie, impostazioni personalizzate).
data_mapping oggetto NO Mapping dei campi dati personalizzati (generato automaticamente dai dati, se non specificato).

File di dati di esempio di base


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

File di dati di esempio aggiuntivi

Filename Descrzione
dataset-tiny.json Set di dati con un numero ridotto di query e analizzatori di test.
dataset.json Set di dati con tutti i tipi di analizzatori supportati e query sufficienti per il calcolo dell'intervallo di confidenza e il test statistico.
dataset-builtin-evaluators.json Esempio di valutatori Foundry integrati (ad esempio coerenza, fluidità, pertinenza, aderenza, metriche).
dataset-openai-graders.json Esempio di classificatori basati su OpenAI (modelli di etichetta, modelli di punteggio, somiglianza del testo, controlli stringa).
dataset-custom-evaluators.json Esempio di analizzatori personalizzati con parametri dell'analizzatore.
dataset-data-mapping.json Esempio di mappatura dei dati che mostra come sostituire i mapping automatici dei campi con nomi di colonne personalizzati.

Pipeline di esempio

Per usare questa estensione Azure DevOps, aggiungere l'attività alla pipeline di Azure e configurare l'autenticazione per accedere al progetto Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Risultati e output di valutazione

I risultati della valutazione vengono visualizzati nel riepilogo della pipeline di Azure DevOps con metriche dettagliate e confronti tra gli agenti quando vengono valutati più agenti.

Output dei risultati della valutazione nella sezione di riepilogo per ogni attività di valutazione dell'intelligenza artificiale eseguita nella pipeline di Azure DevOps.

Lo screenshot seguente è un report di esempio per il confronto di due agenti.

Screenshot del risultato della valutazione agente.