Eseguire valutazioni dal portale di Microsoft Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Valutare le prestazioni e la sicurezza dei modelli di intelligenza artificiale generativi e degli agenti eseguendoli su un set di dati di test. Durante una valutazione, il modello o l'agente viene testato con il set di dati e le relative prestazioni vengono misurate usando analizzatori predefiniti e personalizzati.

Usare il portale Foundry per eseguire valutazioni, visualizzare i risultati e analizzare le metriche.

Prerequisiti

  • Un set di dati di test in formato CSV o JSON Lines (JSONL) o un modello o un agente da valutare.
  • Connessione OpenAI Azure con un modello GPT distribuito che supporta il completamento della chat, ad esempio gpt-5-mini. Obbligatorio solo per le valutazioni di qualità assistita dall'IA.
  • Ruolo di Utente Azure AI nel progetto Foundry. Per altre informazioni, vedere Controllo degli accessi in base al ruolo per Microsoft Foundry.

Creare una valutazione

È possibile avviare una valutazione da diverse posizioni nel portale foundry:

  • Pagina di valutazione: nel riquadro sinistro selezionare Valutazione>Crea.
  • Pagina Modelli: passare al modello, selezionare la scheda Valutazione e quindi selezionare Crea.
  • Pagina Agenti: passare all'agente, selezionare la scheda Valutazione e quindi selezionare Crea.
  • Playground dell'agente: Vai al tuo agente, seleziona la scheda Playground, quindi seleziona Metriche>Esegui valutazione completa.

Destinazione di valutazione

Quando si crea una valutazione, si sceglie prima di tutto la destinazione di valutazione. L'obiettivo determina contro cosa viene eseguita la valutazione:

  • Agente: valuta l'output generato dall'agente selezionato e dall'input definito dall'utente. Funziona sia per gli agenti immediati che per gli agenti ospitati.
  • Modello: valuta l'output generato dal modello selezionato e dal prompt definito dall'utente.
  • Set di dati: valuta gli output preesistenti del modello o dell'agente da un set di dati di test.

Selezionare o creare un set di dati

Specificare un set di dati per la valutazione. È possibile caricare un set di dati personalizzato o generarne uno in modo sintetico.

  • Aggiungere un nuovo set di dati: caricare i file dalla risorsa di archiviazione locale. Sono supportati solo i formati di file CSV e JSONL. Nel riquadro destro viene visualizzata un'anteprima dei dati di test.
  • Generazione di set di dati sintetici: generare un set di dati sintetico quando non sono presenti dati di test. Specificare la risorsa, il numero di righe e un prompt che descrive i dati da generare. È anche possibile caricare file per migliorare la pertinenza.

Nota

La generazione di dati sintetici richiede un modello con la funzionalità API Risposte. Per la disponibilità, vedere Disponibilità dell'area dell'API Risposte.

Contenuto multimodale (anteprima)

Tutte le destinazioni di valutazione- Agente, Modello, Set di dati e Tracce- supportano contenuti audio e immagini. Ogni tipo di contenuto usa uno schema JSONL specifico:

Contenuto immagine:

  • image_url: l'immagine come URI dati (ad esempio, data:image/png;base64,...) o un URL accessibile pubblicamente.
  • caption: una descrizione di testo del contenuto dell'immagine.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Contenuto audio:

  • audio_data: L'audio sotto forma di URI dati, contenente dati WAV codificati in base64 (ad esempio, data:audio/wav;base64,...).
  • expected: una descrizione testuale del contenuto audio previsto.

Nota

Attualmente è supportato solo il formato audio WAV.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

I set di dati possono anche usare il formato di conversazione dei messaggi di chat, in cui i dati audio e immagine sono incorporati all'interno di una singola colonna di messaggi di chat come URI dati o URL accessibili pubblicamente.

L'esempio seguente mostra una colonna del set di dati di conversazione con contenuto audio e immagine incorporati:

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
] 

È possibile visualizzare in anteprima le immagini e riprodurre clip audio direttamente nel flusso di creazione della valutazione e nella visualizzazione dei risultati della valutazione.

Configurare i criteri di test

Selezionare gli analizzatori da usare per la valutazione. Microsoft Foundry offre tre categorie di analizzatori predefiniti:

  • Valutatori di agenti: Valutare quanto efficacemente gli agenti gestiscono attività, strumenti e intenti utente.
  • Analizzatori di qualità : misurare la qualità complessiva delle risposte generate. Include sia le metriche assistita dall'intelligenza artificiale (richiedono una distribuzione del modello come giudice) che le metriche NLP (matematiche, spesso richiedono dati di verità sul terreno).
  • Analizzatori di sicurezza : identificare potenziali rischi per contenuti e sicurezza nell'output generato. Gli analizzatori di sicurezza non richiedono una distribuzione del modello.

È anche possibile creare analizzatori personalizzati e selezionarli durante la configurazione dei criteri di test.

Per l'elenco completo degli analizzatori disponibili, vedere Analizzatori predefiniti.

Mapping dei dati

Gli analizzatori diversi richiedono input di dati diversi. Il portale esegue automaticamente il mapping dei campi del set di dati ai campi previsti da ogni analizzatore. Controllare il mapping e riassegnare i campi, se necessario.

Se il portale non è in grado di eseguire il mapping automatico di un campo, il campo viene visualizzato come Non assegnato. Seleziona il menu a tendina del campo per assegnare manualmente una colonna dal tuo dataset. I campi obbligatori sono contrassegnati con un asterisco (*) . Se i campi obbligatori non vengono assegnati, gli analizzatori hanno esito negativo.

Per i requisiti di campo per analizzatore, vedere le rispettive pagine dell'analizzatore in Analizzatori predefiniti.

Esaminare e inviare

Dopo aver completato la configurazione, specificare un nome per la valutazione, esaminare le impostazioni e selezionare Invia.

Dopo l'invio, viene avviata l'esecuzione della valutazione. Le valutazioni vengono in genere completate entro pochi minuti, a seconda delle dimensioni del set di dati. Per visualizzare i risultati, selezionare il nome della valutazione nella pagina Valutazione oppure visualizzare i risultati della valutazione.

Altre informazioni sulla valutazione dei modelli e degli agenti di intelligenza artificiale generativi: