Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Importante
Databricks recomienda usar MLflow 3 para evaluar y supervisar aplicaciones de GenAI. En esta página se describe la evaluación del agente de MLflow 2.
- Para obtener una introducción a la evaluación y supervisión en MLflow 3, consulte Evaluación y supervisión de agentes de IA.
- Para obtener información sobre la migración a MLflow 3, consulte Migración a MLflow 3 desde la evaluación del agente.
- Para obtener información sobre MLflow 3 sobre este tema, consulte Evaluación y supervisión de agentes de inteligencia artificial.
El siguiente cuaderno demuestra cómo evaluar una aplicación de inteligencia artificial generativa utilizando jueces LLM propietarios de Agent Evaluation, así como métricas personalizadas y etiquetas de expertos en el dominio. Muestra lo siguiente:
- Cómo cargar registros de producción (seguimientos) en un conjunto de datos de evaluación.
- Cómo ejecutar una evaluación y realizar el análisis de la causa principal.
- Cómo crear métricas personalizadas para detectar automáticamente problemas de calidad.
- Cómo enviar registros de producción para que las PYME etiqueten y evolucionen el conjunto de datos de evaluación.
Para preparar el agente para la preproducción, consulte el cuaderno de demostración del agente de Mosaic AI. Para obtener información general, consulte Mosaic AI Agent Evaluation (MLflow 2).