Condividi tramite


Codice genie per l'osservabilità e la valutazione dell'agente

Genie Code offre un'interfaccia del linguaggio naturale per comprendere, eseguire il debug e migliorare le applicazioni GenAI all'interno di MLflow. Ha accesso in lettura a tutti gli elementi dell'esperimento, dalle tracce, richieste e set di dati alle esecuzioni di valutazione, ai valutatori e alle sessioni di etichettatura, in modo da poter esplorare i dati di osservabilità e valutazione in modo conversazionale anziché scrivere query o navigare tra più pagine dell'interfaccia utente.

Per iniziare, fare clic sull'icona Genie Code (Codice Genie) in alto a destra nell'area di lavoro durante la visualizzazione di un esperimento.

Codice Genie per l'osservabilità e la valutazione dell'agente

Capacità

Genie Code può aiutarti con un'ampia gamma di attività di osservabilità e valutazione, tra cui:

  • Analisi e debug delle tracce: analizzare le tracce di errore, trovare gli errori, esaminare gli alberi di span, individuare le cause principali, analizzare la latenza e identificare i colli di bottiglia nel processo di esecuzione dell'agente. Analizza in dettaglio qualsiasi traccia per esaminare la gerarchia completa del suo intervallo, includendo gli input, gli output, i metadati e l'uso dei token ad ogni fase.
  • Metriche e prestazioni: percentili di latenza di calcolo (P50/P95/P99), tenere traccia delle percentuali di errore e della velocità effettiva nel tempo, analizzare i modelli e i costi di utilizzo dei token e confrontare le prestazioni tra periodi di tempo o filtri diversi.
  • Qualità e valutazioni: esaminare i punteggi di valutazione da feedback umano, giudici LLM e controlli programmatici. Esaminare i set di dati di valutazione, controllare i scorer registrati e le loro configurazioni e ottenere assistenza per impostare mlflow.genai.evaluate() con i scorer corretti.
  • Etichettatura e revisione: visualizzare le sessioni di etichettatura e gli utenti assegnati per esaminare le tracce ed esaminare gli schemi di etichettatura per comprendere i criteri di feedback, ad esempio valutazioni, commenti e aspettative.
  • Registro dei prompt: sfoglia i prompt in Unity Catalog, visualizza modelli, versioni e alias.
  • Guida all'uso della strumentazione: Ottieni aiuto per aggiungere il tracciamento al tuo codice con autolog(), @mlflow.trace o intervalli manuali, con esempi di codice eseguibile che puoi incollare direttamente nei notebook di Azure Databricks.

Domande di esempio

Ecco alcuni aspetti che è possibile chiedere a Genie Code:

  • "Aiutami a individuare i problemi relativi all'uso dello strumento dall'agente per analizzare le tracce di questo esperimento negli ultimi 3 ore."
  • "Identificare i casi in cui gli utenti vengono frustrati nelle conversazioni con l'agente"
  • "Quali sessioni hanno i punteggi di feedback utente più bassi e cosa è andato storto in tali conversazioni?"
  • "Quali sono i modelli di errore più comuni nelle mie tracce di questa settimana e quali metriche valutative devo aggiungere per individuarli?"
  • "Quali intervalli utilizzano la maggior parte dei token in tutte le tracce?"
  • "Trovare tracce in cui il retriever non ha restituito risultati, ma l'agente ha comunque cercato di rispondere"
  • "Aiutami a configurare il processo di valutazione per l'agente RAG con i criteri di valutazione corretti"

Disponibilità

Genie Code è un servizio designato che usa Geos per gestire la residenza dei dati durante l'elaborazione del contenuto del cliente. Per informazioni dettagliate sulla disponibilità geografica, vedere Disponibilità geografica.

Passaggi successivi