Introducción a la supervisión de Databricks Lakehouse

2025-01-21

En este artículo se describe la supervisión de Databricks Lakehouse. Abarca las ventajas de supervisar los datos y proporciona información general sobre los componentes y el uso de la supervisión de Databricks Lakehouse.

La supervisión de Databricks Lakehouse le permite supervisar las propiedades estadísticas y la calidad de los datos en todas las tablas de su cuenta. También puede usarlo para realizar un seguimiento del rendimiento de los modelos de aprendizaje automático y los puntos de conexión de servicio de modelos mediante la supervisión de tablas de inferencia que contienen entradas y predicciones del modelo. En el diagrama se muestra el flujo de datos a través de canalizaciones de datos y aprendizaje automático en Databricks y cómo puede usar la supervisión para realizar un seguimiento continuo de la calidad de los datos y el rendimiento del modelo.

Información general sobre la supervisión de Databricks Lakehouse

¿Por qué usar la supervisión de Databricks Lakehouse?

Para obtener información útil a partir de los datos, es necesario tener confianza en la calidad de los datos. La supervisión de los datos proporciona medidas cuantitativas que le ayudan a realizar un seguimiento y confirmar la calidad y la coherencia de los datos a lo largo del tiempo. Al detectar cambios en la distribución de datos de la tabla o el rendimiento del modelo correspondiente, las tablas creadas por Databricks Lakehouse Monitoring pueden capturar y avisarle del cambio y puede ayudarle a identificar la causa.

La supervisión de Databricks Lakehouse le ayuda a responder a preguntas como las siguientes:

¿Qué aspecto tiene la integridad de los datos y cómo cambia con el tiempo? Por ejemplo, ¿cuál es la fracción de valores NULL o cero de los datos actuales, y ha aumentado esta?
¿Qué aspecto tiene la distribución estadística de los datos y cómo cambia con el tiempo? Por ejemplo: ¿cuál es el percentil 90 de una columna numérica? O bien, ¿cuál es la distribución de valores en una columna de categorías y cómo difiere de ayer?
¿Hay un desfase entre los datos actuales y una línea base conocida, o bien entre ventanas de tiempo sucesivas de los datos?
¿Qué aspecto tiene la distribución estadística o el desfase de un subconjunto o segmento de datos?
¿Cómo cambian las predicciones y las entradas del modelo de ML a lo largo del tiempo?
¿Cómo evoluciona el rendimiento del modelo a lo largo del tiempo? ¿La versión del modelo A rinde mejor que la versión B?

Además, la supervisión de Databricks Lakehouse permite controlar la granularidad de tiempo de las observaciones y configurar métricas personalizadas.

Requisitos

Los siguientes requisitos son necesarios para usar la supervisión de Databricks Lakehouse:

El área de trabajo deberá estar habilitada para el catálogo de Unity y debe tener acceso a SQL de Databricks.
Solo se admiten tablas Delta para la supervisión y la tabla debe ser uno de los siguientes tipos de tabla: tablas administradas, tablas externas, vistas, vistas materializadas o tablas de streaming.
Los monitores creados sobre vistas materializadas y tablas de streaming no admiten el procesamiento incremental.
No se admiten todas las regiones. Para obtener soporte técnico regional, consulte la columna Supervisión de Lakehouse en la tabla AI y el aprendizaje automático.

Nota:

La supervisión de Databricks Lakehouse utiliza computación sin servidor para los trabajos, pero no requiere que la cuenta esté habilitada para la computación sin servidor. Para obtener información sobre el seguimiento de los gastos de Lakehouse Monitoring, consulte Ver gastos de Lakehouse Monitoring.

Cómo funciona el monitoreo de Lakehouse en Databricks

Para supervisar una tabla en Databricks, cree un monitor asociado a la tabla. Para supervisar el rendimiento de un modelo de aprendizaje automático, adjunte el monitor a una tabla de inferencia que contenga las entradas del modelo y las predicciones correspondientes.

La supervisión de Databricks Lakehouse proporciona los siguientes tipos de análisis: serie temporal, instantánea e inferencia.

Tipo de perfil	Descripción
Serie temporal	Se usa para tablas que contienen un conjunto de datos de serie temporal basado en una columna de marca de tiempo. La supervisión calcula las métricas de calidad de los datos en ventanas basadas en el tiempo de la serie temporal.
Inferencia	Se usa para tablas que contienen el registro de solicitudes de un modelo. Cada fila es una solicitud, con columnas para la marca de tiempo, las entradas del modelo, la predicción correspondiente y la etiqueta de verdad fundamental (opcional). La supervisión compara el rendimiento del modelo y las métricas de calidad de los datos en las ventanas basadas en el tiempo del registro de solicitudes.
Instantánea	Se usa para todos los demás tipos de tablas. La supervisión calcula las métricas de calidad de los datos en todos los datos de la tabla. La tabla completa se procesa con cada actualización.

En esta sección se describen brevemente las tablas de entrada que usa la supervisión de Databricks Lakehouse y las tablas de métricas que genera. El diagrama muestra la relación entre las tablas de entrada, las tablas de métricas, el monitor y el panel.

Diagrama de la supervisión de Databricks Lakehouse

Tabla principal y tabla de línea base

Además de la tabla que se vaya a supervisar, denominada "tabla principal", puede especificar opcionalmente una tabla de línea base que se usará como referencia para medir el desfase o el cambio en los valores a lo largo del tiempo. Una tabla de referencia es útil cuando tiene un ejemplo de lo que espera de sus datos. La idea es que el desfase se calcule en relación a los valores y distribuciones de los datos esperados.

La tabla de línea base debería contener un conjunto de datos que refleje la calidad esperada de los datos de entrada, en términos de distribuciones estadísticas, distribuciones de columnas individuales, valores que falten y otras características. Debería coincidir con el esquema de la tabla supervisada. La excepción es la columna de marca de tiempo de las tablas usadas con series temporales o perfiles de inferencia. Si faltasen columnas en la tabla principal o en la tabla de línea base, la supervisión usará la heurística de mejor esfuerzo para procesar las métricas de salida.

Para los monitores que usen un perfil de instantánea, la tabla base debería contener una instantánea de los datos donde la distribución represente un estándar de calidad aceptable. Por ejemplo, en cuanto a datos de distribución de calificaciones, uno podría establecer la línea de base en una clase anterior en la que las calificaciones se distribuyeron uniformemente.

Para los monitores que usen un perfil de serie temporal, la tabla de línea base debería contener datos que representen ventanas de tiempo en las que las distribuciones de datos representen un estándar de calidad aceptable. Por ejemplo, en cuanto a datos meteorológicos, podría establecer la línea de base en una semana, mes o año donde la temperatura estuvo cerca de las temperaturas normales esperadas.

En el caso de monitores que usen un perfil de inferencia, una buena opción para una línea base serían los datos que se usaron para entrenar o validar el modelo que se esté supervisando. De este modo, los usuarios podrían recibir alertas cuando los datos se hayan desfasado en relación con lo que se entrenó y validó el modelo. Esta tabla debe contener las mismas columnas de características que la tabla principal y, además, debe tener la misma model_id_col que se especificó para el InferenceLog de la tabla principal para que los datos se agreguen de forma coherente. Lo ideal es que el conjunto de pruebas o validación usado para evaluar el modelo se use para garantizar métricas de calidad de modelos comparables.

Tablas de métricas y tablero de control

Un monitor de tablas crea dos tablas de métricas y un panel de control. Los valores de métricas se calculan para toda la tabla y para las ventanas de tiempo y subconjuntos de datos (o "segmentos") que se especifiquen al crear el monitor. Además, para el análisis de inferencia, las métricas se calculan para cada identificador de modelo. Para obtener más información sobre las tablas de métricas, consulte Supervisión de tablas de métricas.

La tabla de métricas de perfil contiene estadísticas de resumen. Consulte el esquema de la tabla de métricas de perfil.
La tabla de métricas de desfase contiene estadísticas relacionadas con el desfase de los datos a lo largo del tiempo. Si se proporcionase una tabla de línea base, también se supervisará el desfase con respecto a los valores de línea base. Consulte el esquema de la tabla de métricas de desfase.

Las tablas de métricas son tablas Delta y se almacenarán en un esquema de catálogo de Unity que especifique. Es posible ver estas tablas mediante la interfaz de usuario de Databricks, consultarlas mediante Databricks SQL y crear paneles y alertas en función de ellas.

Para cada monitor, Databricks creará automáticamente un panel para ayudarle a visualizar y presentar los resultados del monitor. El panel es totalmente personalizable. Consulte Paneles.

Empiece a usar la supervisión de Lakehouse en Databricks

Para comenzar, consulte los artículos siguientes: