Codice genie per l'osservabilità e la valutazione dell'agente

Genie Code offre un'interfaccia del linguaggio naturale per comprendere, eseguire il debug e migliorare le applicazioni GenAI all'interno di MLflow. Ha accesso in lettura a tutti gli elementi dell'esperimento, dalle tracce, richieste e set di dati alle esecuzioni di valutazione, ai valutatori e alle sessioni di etichettatura, in modo da poter esplorare i dati di osservabilità e valutazione in modo conversazionale anziché scrivere query o navigare tra più pagine dell'interfaccia utente.

Per iniziare, fare clic sull'icona Genie Code (Codice Genie) in alto a destra nell'area di lavoro durante la visualizzazione di un esperimento.

Codice Genie per l'osservabilità e la valutazione dell'agente

Capacità

Genie Code può aiutarti con un'ampia gamma di attività di osservabilità e valutazione, tra cui:

Analisi e debug delle tracce: analizzare le tracce di errore, trovare gli errori, esaminare gli alberi di span, individuare le cause principali, analizzare la latenza e identificare i colli di bottiglia nel processo di esecuzione dell'agente. Analizza in dettaglio qualsiasi traccia per esaminare la gerarchia completa del suo intervallo, includendo gli input, gli output, i metadati e l'uso dei token ad ogni fase.
Metriche e prestazioni: percentili di latenza di calcolo (P50/P95/P99), tenere traccia delle percentuali di errore e della velocità effettiva nel tempo, analizzare i modelli e i costi di utilizzo dei token e confrontare le prestazioni tra periodi di tempo o filtri diversi.
Qualità e valutazioni: esaminare i punteggi di valutazione da feedback umano, giudici LLM e controlli programmatici. Esaminare i set di dati di valutazione, controllare i scorer registrati e le loro configurazioni e ottenere assistenza per impostare mlflow.genai.evaluate() con i scorer corretti.
Etichettatura e revisione: visualizzare le sessioni di etichettatura e gli utenti assegnati per esaminare le tracce ed esaminare gli schemi di etichettatura per comprendere i criteri di feedback, ad esempio valutazioni, commenti e aspettative.
Registro dei prompt: sfoglia i prompt in Unity Catalog, visualizza modelli, versioni e alias.
Guida all'uso della strumentazione: Ottieni aiuto per aggiungere il tracciamento al tuo codice con autolog(), @mlflow.trace o intervalli manuali, con esempi di codice eseguibile che puoi incollare direttamente nei notebook di Azure Databricks.

Domande di esempio

Ecco alcuni aspetti che è possibile chiedere a Genie Code:

"Aiutami a individuare i problemi relativi all'uso dello strumento dall'agente per analizzare le tracce di questo esperimento negli ultimi 3 ore."
"Identificare i casi in cui gli utenti vengono frustrati nelle conversazioni con l'agente"
"Quali sessioni hanno i punteggi di feedback utente più bassi e cosa è andato storto in tali conversazioni?"
"Quali sono i modelli di errore più comuni nelle mie tracce di questa settimana e quali metriche valutative devo aggiungere per individuarli?"
"Quali intervalli utilizzano la maggior parte dei token in tutte le tracce?"
"Trovare tracce in cui il retriever non ha restituito risultati, ma l'agente ha comunque cercato di rispondere"
"Aiutami a configurare il processo di valutazione per l'agente RAG con i criteri di valutazione corretti"

Disponibilità

Genie Code è un servizio designato che usa Geos per gestire la residenza dei dati durante l'elaborazione del contenuto del cliente. Per informazioni dettagliate sulla disponibilità geografica, vedere Disponibilità geografica.

Passaggi successivi

Tracciamento MLflow - Osservabilità GenAI — Scopri il tracciamento di MLflow per l'osservabilità end-to-end.
Valutare e monitorare gli agenti di intelligenza artificiale : configurare la valutazione e il monitoraggio per gli agenti GenAI.
Introduzione: MLflow 3 per GenAI - Introduzione a MLflow 3 per GenAI.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-15