Cuaderno del tutorial de evaluación del agente de AI de Mosaico (MLflow 2)

Importante

Databricks recomienda usar MLflow 3 para evaluar y supervisar aplicaciones de GenAI. En esta página se describe la evaluación del agente de MLflow 2.

Para obtener una introducción a la evaluación y supervisión en MLflow 3, consulte Evaluación y supervisión de agentes de IA.
Para obtener información sobre la migración a MLflow 3, consulte Migración a MLflow 3 desde la evaluación del agente.
Para obtener información sobre MLflow 3 sobre este tema, consulte Evaluación y supervisión de agentes de inteligencia artificial.

El siguiente cuaderno demuestra cómo evaluar una aplicación de inteligencia artificial generativa utilizando jueces LLM propietarios de Agent Evaluation, así como métricas personalizadas y etiquetas de expertos en el dominio. Muestra lo siguiente:

Cómo cargar registros de producción (seguimientos) en un conjunto de datos de evaluación.
Cómo ejecutar una evaluación y realizar el análisis de la causa principal.
Cómo crear métricas personalizadas para detectar automáticamente problemas de calidad.
Cómo enviar registros de producción para que las PYME etiqueten y evolucionen el conjunto de datos de evaluación.

Para preparar el agente para la preproducción, consulte el cuaderno de demostración del agente de Mosaic AI. Para obtener información general, consulte Mosaic AI Agent Evaluation (MLflow 2).

Cuaderno de métricas personalizadas, directrices y etiquetas de expertos competentes para la evaluación de agentes

Obtención del cuaderno

Retroalimentació

Ha estat útil aquesta pàgina?

Last updated on 2025-11-22

Comparteix via

Cuaderno del tutorial de evaluación del agente de AI de Mosaico (MLflow 2)

Cuaderno de métricas personalizadas, directrices y etiquetas de expertos competentes para la evaluación de agentes

Retroalimentació

Recursos addicionals