Comparteix via


Cuaderno del tutorial de evaluación del agente de AI de Mosaico (MLflow 2)

Importante

Databricks recomienda usar MLflow 3 para evaluar y supervisar aplicaciones de GenAI. En esta página se describe la evaluación del agente de MLflow 2.

El siguiente cuaderno demuestra cómo evaluar una aplicación de inteligencia artificial generativa utilizando jueces LLM propietarios de Agent Evaluation, así como métricas personalizadas y etiquetas de expertos en el dominio. Muestra lo siguiente:

  • Cómo cargar registros de producción (seguimientos) en un conjunto de datos de evaluación.
  • Cómo ejecutar una evaluación y realizar el análisis de la causa principal.
  • Cómo crear métricas personalizadas para detectar automáticamente problemas de calidad.
  • Cómo enviar registros de producción para que las PYME etiqueten y evolucionen el conjunto de datos de evaluación.

Para preparar el agente para la preproducción, consulte el cuaderno de demostración del agente de Mosaic AI. Para obtener información general, consulte Mosaic AI Agent Evaluation (MLflow 2).

Cuaderno de métricas personalizadas, directrices y etiquetas de expertos competentes para la evaluación de agentes

Obtención del cuaderno