Comparteix via


Referencia de tablas del sistema de MLflow

Importante

Las tablas del sistema de MLflow se encuentran en versión preliminar pública.

Las mlflow tablas del sistema capturan metadatos del experimento administrados en el servicio de seguimiento de MLflow. Estas tablas permiten a los usuarios con privilegios aprovechar las herramientas de Lakehouse de Databricks en sus datos de MLflow en todas las áreas de trabajo de la región. Puede usar las tablas para crear paneles personalizados de INTELIGENCIA ARTIFICIAL o BI, configurar alertas de SQL o realizar consultas analíticas a gran escala.

A través de las tablas del mlflow sistema, los usuarios pueden responder preguntas como:

  • ¿Qué experimentos tienen la confiabilidad más baja?
  • ¿Cuál es el uso medio de GPU en diferentes experimentos?

Nota:

Las mlflow tablas del sistema comenzaron a grabar datos de MLflow de todas las regiones el 2 de septiembre de 2025. Es posible que los datos anteriores a esa fecha no estén disponibles.

Tablas disponibles

El mlflow esquema incluye las tablas siguientes:

  • system.mlflow.experiments_latest: registra nombres de experimentos y eventos de eliminación temporal. Estos datos son similares a la página de experimentos de la interfaz de usuario de MLflow.
  • system.mlflow.runs_latest: registra información sobre el ciclo de vida de ejecución, los parámetros y las etiquetas asociados a cada ejecución y estadísticas agregadas de valores mínimos, máximos y más recientes de todas las métricas. Estos datos son similares a la página de detalles de ejecuciones o de búsqueda.
  • system.mlflow.run_metrics_history: registra el nombre, el valor, la marca de tiempo y el paso de todas las métricas registradas en ejecuciones, que se pueden usar para trazar series de tiempo detalladas desde ejecuciones. Estos datos son similares a la pestaña métricas de la página de detalles de ejecuciones.

A continuación se muestra un ejemplo de trazado de información de ejecución mediante un panel:

Panel de detalles de ejecución

Esquemas de tabla

A continuación se muestran los esquemas de tabla con descripciones y datos de ejemplo.

Diagrama de ER

system.mlflow.experiments_latest

Nombre de la columna Tipo de dato Description Example Anulable
account_id cuerda / cadena Identificador de la cuenta que contiene el experimento de MLflow "bd59efba-4444-4444-443f-44444449203" No
update_time marca de tiempo Hora del sistema en la que se actualizó por última vez el experimento 2024-06-27T00:58:57.000+00:00 No
delete_time marca de tiempo Hora del sistema en la que el usuario eliminó temporalmente el experimento de MLflow. 2024-07-02T12:42:59.000+00:00
experiment_id cuerda / cadena Identificador del experimento de MLflow "2667956459304720" No
workspace_id cuerda / cadena Identificador del área de trabajo que contiene el experimento de MLflow "6051921418418893" No
name cuerda / cadena Nombre proporcionado por el usuario del experimento "/Users/first.last@databricks.com/myexperiment" No
create_time marca de tiempo Hora del sistema en la que se creó el experimento 2024-06-27T00:58:57.000+00:00 No

system.mlflow.runs_latest

Nombre de la columna Tipo de dato Description Example Anulable
account_id cuerda / cadena Identificador de la cuenta que contiene la ejecución de MLflow "bd59efba-4444-4444-443f-44444449203" No
update_time marca de tiempo Hora del sistema en la que se actualizó por última vez la ejecución 2024-06-27T00:58:57.000+00:00 No
delete_time marca de tiempo Hora del sistema en la que el usuario eliminó temporalmente la ejecución de MLflow. 2024-07-02T12:42:59.000+00:00
workspace_id cuerda / cadena Identificador del área de trabajo que contiene la ejecución de MLflow "6051921418418893" No
run_id cuerda / cadena Identificador de la ejecución de MLflow "7716d750d279487c95f64a75bff2ad56" No
experiment_id cuerda / cadena Identificador del experimento de MLflow que contiene la ejecución de MLflow "2667956459304720" No
created_by cuerda / cadena Nombre de la entidad de seguridad o usuario de Databricks que creó la ejecución de MLflow. "<user>@<domain-name>"
start_time marca de tiempo Hora especificada por el usuario cuando se inició la ejecución de MLflow 2024-06-27T00:58:57.000+00:00 No
end_time marca de tiempo Hora especificada por el usuario cuando finalizó la ejecución de MLflow 2024-07-02T12:42:59.000+00:00
run_name cuerda / cadena Nombre de la ejecución de MLflow "wistful-deer-932", "my-xgboost-training-run" No
status cuerda / cadena Estado de ejecución de la ejecución de MLflow "FINISHED" No
params cadena de mapa<, cadena> Parámetros clave-valor de la ejecución de MLflow {"n_layers": "5", "batch_size": "64", "optimizer": "Adam"} No
tags cadena de mapa<, cadena> Etiquetas clave-valor establecidas en la ejecución de MLflow {"ready_for_review": "true"} No
aggregated_metrics list<struct<string, double, double, double>> Vista agregada que resume las métricas en el run_metrics_history [{"metric_name": "training_accuracy", "latest_value": 0.97, "min_value": 0.8, "max_value": 1.0}, ...] No
aggregated_metrics.metric_name cuerda / cadena Nombre especificado por el usuario de la métrica "training_accuracy" No
aggregated_metrics.latest_value double El valor más reciente del metric_name en la serie temporal de esta combinación (ejecución, metric_name) en run_metrics_history 0.97 No
aggregated_metrics.max_value double Valor máximo del metric_name en la serie temporal de esta combinación (ejecutar, metric_name) en run_metrics_history. Si se registró un valor NaN para una métrica, el valor será NaN. 1.0 No
aggregated_metrics.min_value double Valor mínimo del metric_name de la serie temporal de esta combinación (ejecución, metric_name) en run_metrics_history. Si se registró un valor NaN para una métrica, el valor será NaN. 0.8 No

system.mlflow.run_metrics_history

Nombre de la columna Tipo de dato Description Example Anulable
account_id cuerda / cadena Identificador de la cuenta que contiene la ejecución de MLflow en la que se registró la métrica. "bd59efba-4444-4444-443f-44444449203" No
insert_time marca de tiempo Hora del sistema en la que se insertó la métrica 2024-06-27T00:58:57.000+00:00 No
record_id cuerda / cadena Identificador único de la métrica para distinguir entre valores idénticos "Ae1mDT5gFMSUwb+UUTuXMQ==" No
workspace_id cuerda / cadena Identificador del área de trabajo que contiene la ejecución de MLflow en la que se registró la métrica. "6051921418418893" No
experiment_id cuerda / cadena Identificador del experimento de MLflow que contiene la ejecución de MLflow en la que se registró la métrica. "2667956459304720" No
run_id cuerda / cadena Identificador de la ejecución de MLflow en la que se registró la métrica. "7716d750d279487c95f64a75bff2ad56" No
metric_name cuerda / cadena El nombre de la métrica "training_accuracy" No
metric_time marca de tiempo Hora especificada por el usuario en la que se calculó la métrica 2024-06-27T00:55:54.1231+00:00 No
metric_step bigint El paso (por ejemplo, época) del entrenamiento del modelo o el desarrollo del agente en el que se registró la métrica 10 No
metric_value double Valor de métrica 0.97 No

Uso compartido del acceso con usuarios

De forma predeterminada, solo los administradores de cuentas tienen acceso a esquemas del sistema. Para conceder acceso a usuarios adicionales a las tablas, un administrador de la cuenta debe concederles los permisos USE y SELECT en el system.mlflow. esquema. Consulte Privilegios de Unity Catalog y objetos protegibles.

Cualquier usuario que tenga acceso a estas tablas puede ver metadatos en todos los experimentos de MLflow para todas las áreas de trabajo de la cuenta. Para configurar el acceso a tablas para un grupo determinado en lugar de usuarios individuales, consulte Procedimientos recomendados del catálogo de Unity.

Si necesita un control más preciso que conceder a todos los usuarios acceso a la tabla, puede usar vistas dinámicas con criterios personalizados para conceder a grupos determinados accesos. Por ejemplo, podría crear una vista que solo muestre registros de un conjunto determinado de identificadores de experimento. Después de configurar una vista personalizada, asigne el nombre de la vista a los usuarios para que puedan consultar la vista dinámica en lugar de la tabla del sistema directamente.

Nota:

No se pueden sincronizar directamente los permisos del experimento de MLflow con permisos de catálogo de Unity.

Casos de uso de ejemplo de metadatos de MLflow

En las secciones siguientes se proporcionan ejemplos de cómo puede usar las tablas del sistema de MLflow para responder a preguntas sobre los experimentos y ejecuciones de MLflow.

Configuración de una alerta SQL para una confiabilidad de experimento baja

Con las alertas de SQL de Databricks (versión preliminar pública), puede programar una consulta periódica periódica y recibir notificaciones si ya no se cumplen determinadas restricciones.

En este ejemplo se crea una alerta que examina los experimentos que se ejecutan con más frecuencia en el área de trabajo para determinar si tienen una confiabilidad baja y pueden necesitar especial atención. La consulta usa la runs_latest tabla para calcular las ejecuciones por experimento marcadas como finalizadas, divididas por el número total de ejecuciones.

Nota:

La característica Alertas de SQL se encuentra actualmente en versión preliminar pública y también puede usar alertas heredadas .

  1. Haga clic en Alertas Icono alertas en la barra lateral y haga clic en Crear alerta.

  2. Copie y pegue la consulta siguiente en el editor de consultas.

     SELECT
       experiment_id,
       AVG(CASE WHEN status = 'FINISHED' THEN 1.0 ELSE 0.0 END) AS success_ratio,
       COUNT(status) AS run_count
     FROM system.mlflow.runs_latest
     WHERE status IS NOT NULL
     GROUP BY experiment_id
     ORDER BY run_count DESC
     LIMIT 20;
    
  3. En el campo Condición , establezca las condiciones MIN success_ratio < 0.9en . Esto desencadenará la alerta si cualquiera de los 20 experimentos principales (por número de ejecuciones) tiene una relación de éxito inferior a 90%.

Además, puede probar la condición, establecer una programación y configurar notificaciones. Para obtener más información sobre cómo configurar la alerta, consulte Configuración de una alerta SQL. A continuación se muestra una configuración de ejemplo mediante la consulta.

Configuración de alertas de SQL

Consultas de ejemplo

Puede usar las siguientes consultas de ejemplo para obtener información sobre la actividad de MLflow en su cuenta mediante Databricks SQL. También puede aprovechar herramientas como cuadernos de Python con Spark.

Obtención de información de ejecución de runs_latest

SELECT
  run_name,
  date(start_time) AS start_date,
  status,
  TIMESTAMPDIFF(MINUTE, start_time, end_time) AS run_length_minutes
FROM system.mlflow.runs_latest
WHERE
  experiment_id = :experiment_id
  AND run_id = :run_id
LIMIT 1

Esto devuelve información sobre la ejecución especificada:

Información de ejecución de los resultados de la consulta

Obtención de información de experimento y ejecución desde experiments_latest y runs_latest

SELECT
  runs.run_name,
  experiments.name,
  date(runs.start_time) AS start_date,
  runs.status,
  TIMESTAMPDIFF(MINUTE, runs.start_time, runs.end_time) AS run_length_minutes
FROM system.mlflow.runs_latest runs
  JOIN system.mlflow.experiments_latest experiments ON runs.experiment_id = experiments.experiment_id
  WHERE
    runs.experiment_id = :experiment_id
    AND runs.run_id = :run_id
LIMIT 1

Obtención de estadísticas de resumen de una ejecución determinada desde run_metrics_history

SELECT
  metric_name,
  count(metric_time) AS num_data_points,
  ROUND(avg(metric_value), 1) AS avg,
  ROUND(max(metric_value), 1) AS max,
  ROUND(min(metric_value), 1) AS min,
  ROUND(PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY metric_value), 1) AS pct_25,
  ROUND(PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY metric_value), 1) AS median,
  ROUND(PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY metric_value), 1) AS pct_75
FROM
  system.mlflow.run_metrics_history
WHERE
  run_id = :run_id
GROUP BY
  metric_name, run_id
LIMIT 100

Esto devuelve un resumen de las métricas de la clase especificada run_id:

Métricas de resumen de ejecución de resultados de consultas

Paneles para experimentos y ejecuciones

Puede crear paneles sobre los datos de tablas del sistema de MLflow para analizar los experimentos de MLflow y ejecutarse desde todo el área de trabajo.

Para más información, consulte Creación de paneles con metadatos de MLflow en tablas del sistema.