Oharra
Orrialde honetara sartzeak baimena behar du. Saioa hasteko edo direktorioak aldatzen saia zaitezke.
Orrialde honetara sartzeak baimena behar du. Direktorioak aldatzen saia zaitezke.
En este artículo se explica el concepto de tablas del sistema en Azure Databricks y se resaltan los recursos que puede usar para sacar el máximo partido de los datos de las tablas del sistema.
¿Qué son las tablas del sistema?
Las tablas del sistema son un almacén analítico alojado en Azure Databricks, que contiene los datos operativos de su cuenta, ubicados en el catálogo system. Las tablas del sistema se pueden usar para la observabilidad histórica en toda la cuenta.
Nota:
Las tablas de esquema de información (system.information_schema) funcionan de forma diferente de otras tablas del sistema. Consulte Esquema de información.
Requisitos
- Para acceder a las tablas del sistema, el área de trabajo debe estar habilitada para el catálogo de Unity. Para obtener más información, consulte Habilitación de tablas del sistema.
- Las tablas del sistema no están disponibles en las siguientes regiones:
- Regiones de Azure China
- Regiones de Azure Government
- Oeste de la India
- Oeste de Suiza
¿Qué tablas del sistema están disponibles?
Actualmente, Azure Databricks hospeda las siguientes tablas del sistema:
| Tabla | Descripción | Admite transmisión en directo | Período gratuito de retención | Incluye datos globales o regionales |
|---|---|---|---|---|
| Registros de auditoría (versión preliminar pública) | Incluye registros para todos los eventos de auditoría de áreas de trabajo de su región. Para obtener una lista de los eventos de auditoría disponibles, consulte Referencia del registro de diagnóstico. Ruta de acceso de tabla: system.access.audit |
Sí | 365 días | Regional para eventos de nivel de área de trabajo. Global para eventos de nivel de cuenta. |
| Uso facturable | Incluye registros de todo el uso facturable de su cuenta. Ruta de acceso de tabla: system.billing.usage |
Sí | 365 días | Global |
| Eventos en la sala limpia (Versión preliminar pública) | Captura eventos relacionados con las salas limpias. Ruta de acceso de tabla: system.access.clean_room_events |
Sí | 365 días | Regional |
| Clústeres | Tabla de dimensiones de variación lenta que contiene el historial completo de configuraciones de proceso a lo largo del tiempo para cualquier clúster. | Sí | 365 días | Regional |
| Linaje de columnas | Incluye un registro para cada evento de lectura o escritura en una columna catálogo de Unity (pero no incluye eventos que no tienen un origen). Ruta de acceso de tabla: system.access.column_lineage |
Sí | 365 días | Regional |
| Resultados de clasificación de datos (Beta) | Almacena las detecciones de clases de datos confidenciales a nivel de columna en los catálogos habilitados dentro del metastore. Ruta de acceso de tabla: system.data_classification.results |
No | 365 días | Regional |
| Resultados de supervisión de calidad de datos (beta) | Almacena los resultados de las comprobaciones de supervisión de la calidad de los datos (actualización, integridad) e información de incidentes, incluido el impacto descendente y el análisis de la causa principal, en tablas habilitadas en el metastore. Ruta de acceso de tabla: system.data_quality_monitoring.table_results |
No | Indefinida | Regional |
| Eventos del Asistente de Databricks (versión preliminar pública) | Realiza un seguimiento de los mensajes de usuario enviados al Asistente de Databricks. Ruta de acceso de tabla: system.access.assistant_events |
No | 365 días | Regional |
| Eventos de materialización de datos compartidos de Delta Sharing | Captura los eventos de materialización de datos creados a partir de la vista, la vista materializada y el uso compartido de tablas de streaming. Ruta de acceso de tabla: system.sharing.materialization_history |
Sí | 365 días | Regional para eventos de nivel de área de trabajo. |
| Escala de tiempo de ejecución del trabajo (versión preliminar pública) | Realiza un seguimiento de las horas de inicio y finalización de las ejecuciones del trabajo. Ruta de acceso de tabla: system.lakeflow.job_run_timeline |
Sí | 365 días | Regional |
| Cronograma de tareas laborales (versión preliminar pública) | Supervisa las horas de inicio y fin y los recursos de proceso usados para la ejecución de las tareas. Ruta de acceso de tabla: system.lakeflow.job_task_run_timeline |
Sí | 365 días | Regional |
| Tareas de trabajo (versión preliminar pública) | Realiza un seguimiento de todas las tareas de trabajo que se ejecutan en la cuenta. Ruta de acceso de tabla: system.lakeflow.job_tasks |
Sí | 365 días | Regional |
| Trabajos versión preliminar pública | Realiza un seguimiento de todos los trabajos creados en la cuenta. Ruta de acceso de tabla: system.lakeflow.jobs |
Sí | 365 días | Regional |
| Eventos del embudo del marketplace (versión preliminar pública) | Incluye datos sobre las impresiones y el embudo de consumo de sus anuncios. Ruta de acceso de tabla: system.marketplace.listing_funnel_events |
Sí | 365 días | Regional |
| Acceso a la lista del Marketplace (versión preliminar pública) | Incluye información del consumidor para los eventos de solicitud de datos u obtención de datos completados en sus listados. Ruta de acceso de tabla: system.marketplace.listing_access_events |
Sí | 365 días | Regional |
| Metadatos del experimento de seguimiento de MLflow (versión preliminar pública) | Cada fila representa un experimento creado en el sistema MLflow administrado por Databricks. Ruta de acceso de tabla: system.mlflow.experiments_latest |
Sí | 180 días | Regional |
| Metadatos de ejecución de seguimiento de MLflow (versión preliminar pública) | Cada fila representa una ejecución creada en el sistema MLflow administrado por Databricks. Ruta de acceso de tabla: system.mlflow.runs_latest |
Sí | 180 días | Regional |
| Métricas de ejecución de seguimiento de MLflow (versión preliminar pública) | Contiene las métricas de timeserie registradas en MLflow asociadas a un determinado entrenamiento, evaluación o desarrollo de agentes. Ruta de acceso de tabla: system.mlflow.run_metrics_history |
Sí | 180 días | Regional |
| Datos de modelo de puntos de conexión de servicio (versión preliminar pública) | Tabla de dimensión de cambio lento que almacena los metadatos de cada modelo fundamental servido en un endpoint de servicio de modelos. Ruta de acceso de tabla: system.serving.served_entities |
Sí | 365 días | Regional |
| Uso del modelo de puntos de conexión de servicio (versión preliminar pública) | Captura los recuentos de tokens para cada solicitud a un modelo de puntos de conexión de servicio y sus respuestas. Para registrar el uso del punto de conexión en esta tabla, debe habilitar el seguimiento de uso en tu punto de conexión. Ruta de acceso de tabla: system.serving.endpoint_usage |
Sí | 90 días | Regional |
| Eventos de acceso a la red (entrantes) ( versión preliminar pública) | Una tabla que registra un evento cada vez que se deniega el acceso entrante a un área de trabajo mediante una política de ingreso. Ruta de acceso de tabla: system.access.inbound_network |
Sí | 30 días | Regional |
| Eventos de acceso a la red (salientes) (Vista previa pública) | Una tabla que registra un evento cada vez que se deniega el acceso saliente a Internet desde su cuenta. Ruta de acceso de tabla: system.access.outbound_network |
Sí | 365 días | Regional |
| Escala de tiempo del nodo | Captura las métricas de uso de los recursos de proceso de todos los fines y trabajos. Ruta de acceso de tabla: system.compute.node_timeline |
Sí | 90 días | Regional |
| Tipos de nodo | Captura los tipos de nodo disponibles actualmente con su información básica de hardware. Ruta de acceso de tabla: system.compute.node_types |
No | Indefinida | Regional |
| Cronograma de actualización de flujo de trabajo (versión preliminar pública) | Realiza un seguimiento de las horas de inicio y finalización y los recursos de proceso usados para las actualizaciones de canalización. Ruta de acceso de tabla: system.lakeflow.pipeline_update_timeline |
Sí | 365 días | Regional |
| Pipelines (versión preliminar pública) | Realiza un seguimiento de todas las canalizaciones creadas en la cuenta. Ruta de acceso de tabla: system.lakeflow.pipelines |
Sí | 365 días | Regional |
| Optimización predictiva (versión preliminar pública) | Realiza un seguimiento del historial de operaciones de la característica de optimización predictiva. Ruta de acceso de tabla: system.storage.predictive_optimization_operations_history |
No | 180 días | Regional |
| Precios | Un registro histórico de precios de SKU. Se agrega un registro cada vez que hay un cambio en un precio de SKU. Ruta de acceso de tabla: system.billing.list_prices |
No | Indefinida | Global |
| Historial de consultas (versión preliminar pública) | Captura registros de todas las consultas que se ejecutan en almacenes de SQL y proceso sin servidor para cuadernos y trabajos. Ruta de acceso de tabla: system.query.history |
No | 365 días | Regional |
| Eventos de SQL Warehouse (versión preliminar pública) | Captura eventos relacionados con los almacenes de SQL. Por ejemplo, iniciar, detener, ejecutar, escalar y reducir verticalmente. Ruta de acceso de tabla: system.compute.warehouse_events |
Sí | 365 días | Regional |
| Almacenes de SQL (versión preliminar pública) | Contiene el historial completo de configuraciones a lo largo del tiempo para cualquier almacenamiento de SQL. Ruta de acceso de tabla: system.compute.warehouses |
Sí | 365 días | Regional |
| Linaje de tabla | Incluye un registro para cada evento de lectura o escritura en una tabla o ruta de acceso de Unity Catalog. Ruta de acceso de tabla: system.access.table_lineage |
Sí | 365 días | Regional |
| Áreas de trabajo (versión preliminar pública) | La tabla workspaces_latest es una tabla de dimensiones de variación lenta de metadatos para todas las áreas de trabajo de la cuenta. Ruta de acceso de tabla: system.access.workspaces_latest |
No | Indefinida | Global |
| Ingesta de Zerobus (Streams) (Beta) | Tabla que almacena todos los datos relacionados con los eventos de transmisión generados por el uso de Zerobus Ingest. Ruta de acceso de tabla: system.lakeflow.zerobus_stream |
Sí | 365 días | Regional |
| Zerobus Ingest (Ingesta) (Beta) | Tabla que almacena todos los datos relacionados con los registros ingeridos con Zerobus Ingest. Ruta de acceso de tabla: system.lakeflow.zerobus_ingest |
Sí | 365 días | Regional |
El uso de las tablas de precios y facturación es gratuito. Las tablas en vista previa pública también son gratuitas durante la vista previa, pero podrían generar un cargo en el futuro.
Nota:
Es posible que vea otras tablas del sistema en su cuenta, además de las enumeradas anteriormente. Esas tablas se encuentran actualmente en versión preliminar privada y están vacías de forma predeterminada. Si está interesado en usar cualquiera de estas tablas, póngase en contacto con el equipo de la cuenta de Databricks.
Relaciones de tablas del sistema
En el siguiente diagrama de relación de entidad se describe cómo se relacionan las tablas del sistema disponibles actualmente entre sí. En este diagrama se resaltan las claves principales y externas de cada tabla.
Habilitación de tablas del sistema
Dado que las tablas del sistema se rigen por el catálogo de Unity, debe tener al menos un área de trabajo habilitada para catálogos de Unity en su cuenta para habilitar las tablas del sistema de la cuenta. Las tablas del sistema incluyen datos de todas las áreas de trabajo de la cuenta, pero solo se puede acceder a ellas desde un área de trabajo habilitada para el catálogo de Unity.
El metastore debe estar en Unity Catalog Privilege Model Versión 1.0 para poder acceder a las tablas del sistema. Consulte Actualización a la herencia de privilegios.
Concesión de acceso a las tablas del sistema
El acceso a las tablas del sistema se rige por el catálogo de Unity. De forma predeterminada, ningún usuario tiene acceso a las tablas del sistema. Para permitir que un usuario consulte las tablas del sistema, un administrador de metastore que también sea administrador de la cuenta debe conceder a ese usuario USE y SELECT permisos en los esquemas del sistema. Consulte Administración de privilegios en Unity Catalog.
Las tablas del sistema son de solo lectura y no se pueden modificar.
Nota:
Si la cuenta se creó después del 9 de noviembre de 2023, es posible que no tenga un administrador de metastore de forma predeterminada. Para obtener más información, consulte Introducción al catálogo de Unity.
¿Las tablas del sistema contienen datos para todas las áreas de trabajo de la cuenta?
Las tablas del sistema contienen datos operativos para todas las áreas de trabajo de la cuenta implementadas en la misma región de nube. Algunas tablas incluyen datos globales. Para obtener más información, consulte la lista de tablas disponibles.
Aunque solo se puede acceder a las tablas del sistema a través de un área de trabajo de Catálogo de Unity, incluyen datos operativos de áreas de trabajo que no son del catálogo de Unity en la cuenta.
¿Dónde se almacenan los datos de la tabla del sistema?
Los datos de la tabla del sistema de su cuenta se almacenan en una cuenta de almacenamiento alojada en Azure Databricks, situada en la misma región que su metastore. Los datos se comparten de forma segura con usted mediante Delta Sharing.
Cada tabla tiene un período de retención de datos gratuito. Para obtener más información, consulte la columna Período de retención gratis en ¿Qué tablas del sistema están disponibles?.
¿Dónde se encuentran las tablas del sistema en el Explorador de catálogos?
Las tablas del sistema de tu cuenta se encuentran en un catálogo llamado system, que se incluye en todos los metadatos del Catálogo Unity. En el system catálogo, verá esquemas como access y billing que contienen las tablas del sistema.
Consideraciones para las tablas del sistema de streaming
Azure Databricks usa Delta Sharing para compartir datos de tabla del sistema con los clientes. Tenga en cuenta las siguientes consideraciones al transmitir con Delta Sharing:
- Si usa streaming con tablas del sistema, establezca la
skipChangeCommitsopción entrue. Esto garantiza que el trabajo de streaming no se vea interrumpido por eliminaciones realizadas en las tablas del sistema. Consulte Omisión de actualizaciones y eliminaciones. -
Trigger.AvailableNowno se admite con streaming de uso compartido delta. Se convertirá enTrigger.Once.
Si se utiliza un desencadenador para el trabajo de streaming y se observa que no está actualizado a la versión más reciente de la tabla del sistema, Databricks recomienda aumentar la frecuencia programada del trabajo.
Leer los cambios incrementales de las tablas del sistema de streaming
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Problemas conocidos
- Las nuevas columnas se pueden agregar a las tablas del sistema existentes en cualquier momento. Las consultas que dependen de un esquema fijo pueden interrumpirse si se introducen nuevas columnas. Las columnas existentes no cambiarán ni se quitarán. Si va a escribir datos de tabla del sistema en otra tabla de destino, considere la posibilidad de habilitar la evolución del esquema.
- No se admite la supervisión en tiempo real. Los datos se actualizan a lo largo del día. Si no ve un registro para un evento reciente, vuelva a comprobarlo más adelante.
- El esquema de tabla del sistema
__internal_loggingadmite el registro de carga mediante tablas de inferencia habilitadas para puerta de enlace IA para modelos externos y cargas de trabajo aprovisionadas. Este esquema es visible para los administradores de cuentas, pero no se puede habilitar y no debe usarse para los flujos de trabajo del cliente.
- Para habilitar las tablas del sistema, es posible que tenga que conceder acceso de red al punto de conexión de Blob Storage de las tablas del sistema. Para ver una lista de puntos finales de almacenamiento de las tablas de sistema de cada región, consulte Direcciones IP de puntos finales de almacenamiento.
- Los esquemas del
system.operational_datasistema ysystem.lineageestán en desuso y contendrán tablas vacías.