Analizzare i risultati della valutazione con l'analisi del cluster (anteprima)

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Dopo aver eseguito una o più esecuzioni di valutazione, è possibile generare un'analisi del cluster di valutazione per comprendere i risultati della valutazione. Questa analisi offre un modo intuitivo per identificare i modelli e gli errori principali nelle esecuzioni di valutazione, insieme ai passaggi successivi consigliati per migliorare i punteggi dell'analizzatore.

Questo articolo illustra come generare e interagire con un'analisi del cluster di valutazione.

Prerequisiti

Progetto Foundry.
Una o più esecuzioni di valutazione completate.
Modello distribuito nel progetto da usare per la generazione di analisi del cluster. Per altre informazioni, vedere Creare distribuzioni di modelli.

Generare un'analisi del cluster di valutazione

Nella pagina dei dettagli di valutazione selezionare una o più esecuzioni di valutazione completate.
Selezionare Analisi cluster. Viene visualizzata una finestra di installazione che mostra il tempo stimato e l'utilizzo dei token in base al numero di campioni nelle esecuzioni selezionate.
Selezionare un modello dall'elenco a discesa da usare per generare l'analisi.
Selezionare Genera. L'analisi viene generata e la mappa del cluster viene aperta automaticamente.

Importante

Il risultato dell'analisi non è archiviato. Se si lascia la pagina, il risultato viene perso. Per conservare una copia, scaricare l'analisi prima di spostarsi.

Visualizzare l'analisi del cluster

L'analisi del cluster offre una visualizzazione intuitiva delle prestazioni raggruppando i campioni dei risultati della valutazione con problemi o modelli di risposta simili. Consente di identificare rapidamente i tipi di errore ricorrenti, comprendere la distribuzione tra le categorie di errore e definire le priorità per migliorare le aree.

Nella parte superiore della visualizzazione vengono visualizzate le statistiche di riepilogo per l'esecuzione della valutazione:

Totale campioni : numero totale di risposte valutate (ad esempio, 48).
Cluster: numero di cluster identificati automaticamente (ad esempio, 2).
Superato/non riuscito : scomposizione dei campioni riusciti e problematici.
Punteggio medio – Il punteggio medio complessivo di qualità per l'intero processo.

Nota

Sposta il cursore su un punto o un'etichetta del cluster per visualizzare informazioni dettagliate, incluse le risposte di esempio e il feedback del valutatore. Selezionare questa opzione per aprire il pannello dei dettagli.

Visualizzazione

Ogni punto rappresenta un esempio del set di dati di valutazione. I punti sono raggruppati in base alla somiglianza semantica, usando il clustering basato sull'incorporamento di output del modello e segnali di feedback.

Colore: indica l'assegnazione del cluster(ad esempio, risposta finale inadeguata o risposta errata).
Posizione: gli esempi più vicini condividono caratteristiche o problemi simili.

Pannello dettagli

Grappolo

Se si seleziona un cluster, viene aperto un pannello laterale che include:

Cluster selezionato: nome del gruppo di problemi di primo livello.
Conteggio elementi: numero totale di campioni all'interno del cluster.
Sottocluster: suddivisione delle sottocategorie correlate.
Descrizione: riepilogo diagnostico generato automaticamente che spiega la probabile causa o il modello di caratteristica
Raccomandazioni: passaggi successivi suggeriti per la mitigazione o il miglioramento dell'agente.

Subcluster

La selezione di un sottocluster apre un pannello laterale che include:

Cluster: indica il cluster principale a cui appartiene questo sottocluster, ad esempio inadequate_final_answer.
Subcluster selezionato: sottoinsieme specifico esaminato, ad esempio invalid_or_missing_api_key.
Conteggio delle voci – Numero di campioni individuali raggruppati in questo sottocluster.
Schede di navigazione
- Analisi: fornisce statistiche di riepilogo, medie dei punteggi e informazioni qualitativhe (se disponibili).
- Voci: elenca ogni campione (ID) nel sottocluster con i singoli punteggi, come la scorrevolezza, la solidità o l'accuratezza.

ID voce di ingresso

Alla selezione di un ID punto/voce, si apre un pannello laterale che contiene:

Gerarchia del cluster
- Visualizza il percorso completo a cui appartiene questa voce: Cluster → Subcluster → ID della voce. Ad esempio: inadequate_final_answer → invalid_or_missing_api_key → ID della voce: 17-fluency.
Tab
Conversazione: mostra l'interazione full-text per l'esempio selezionato:
- Riepilogo del contesto (se applicabile): qualsiasi contesto in background o precedente usato nella valutazione.
- Query: richiesta del modello o domanda dell'utente (ad esempio, "Come inviare un'attestazione di rimborso FSA?").
- Risposta: output generato dal modello per la query.
Metadati: contiene informazioni di valutazione aggiuntive, ad esempio punteggi, analizzatori, timestamp, ID agente e ID traccia.

Il pannello filtro a destra della visualizzazione analisi cluster consente di personalizzare la modalità di visualizzazione dei cluster per l'ispezione mirata.

Colore per
- Consente di modificare il modo in cui gli esempi sono codificati a colori nella visualizzazione.
- Le opzioni in genere includono:
  - Cluster: esempi di colori per categoria di problemi di primo livello.
  - Subcluster: i campioni di colori in base a sottocategorie più granulari all'interno di ogni cluster.
  - Oppure risultato della valutazione, tipo di valutazione, punteggio e ID agente.

Filtro avanzato
- Fornisce strumenti per concentrare la visualizzazione su subset specifici di dati.
- È possibile definire filtri in base ai metadati o agli attributi di valutazione.
  - Selezionare Parametro: scegliere il campo da filtrare, ad esempio punteggio, tipo di analizzatore, timestamp.
  - Uguale a / Contiene / Non uguale – definire la condizione per il filtro.
  - Selezionare valore: scegliere o immettere il valore specifico da abbinare.
  - Aggiungi filtro: applicare la condizione per aggiornare la visualizzazione in modo dinamico.

Scaricare l'analisi

Per visualizzare l'analisi offline, selezionare download per ottenere una copia dell'analisi in formato CSV e visualizzarla in altre applicazioni.

Nota

Il risultato dell'analisi non è archiviato. Se si lascia la pagina, il risultato dell'analisi viene perso.

Passaggi successivi

Usare le informazioni dettagliate dell'analisi del cluster per:

Ridefinire le richieste: aggiornare le istruzioni dell'agente per risolvere i modelli di errore ricorrenti identificati nei cluster.
Rieseguire l'addestramento o ottimizzare— usare le categorie di errore identificate come segnale per ottimizzare la curazione dei dati.
Rivalutazione : dopo aver apportato modifiche, eseguire una nuova valutazione e generare una nuova analisi del cluster per confrontare i risultati. Vedere Eseguire valutazioni dall'SDK.

Risoluzione dei problemi

Sintomo	Probabile causa	Correzione
Il pulsante Analisi cluster non è disponibile	Non sono state selezionate esecuzioni di valutazione completate	Selezionare almeno un'esecuzione di valutazione completata nella pagina dei dettagli di valutazione prima di selezionare Analisi cluster.
Nessun modello viene visualizzato nella finestra di generazione	Nessun modello viene distribuito nel progetto	Distribuire un modello nel progetto. Vedere Creare distribuzioni di modelli.
La generazione dell'analisi ha esito negativo o si verifica il timeout	Volume di dati troppo grande o limitazione del servizio	Riduci il numero di tentativi di valutazione selezionati o riprova più tardi.
L'analisi scompare dopo lo spostamento	I risultati non vengono salvati in modo permanente	Eseguire di nuovo l'analisi del cluster e scaricare i risultati prima di spostarsi.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30