Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se explica el concepto de tablas del sistema en Azure Databricks y se resaltan los recursos que puede usar para sacar el máximo partido de los datos de las tablas del sistema.
¿Qué son las tablas del sistema?
Las tablas del sistema son un almacén analítico alojado en Azure Databricks, que contiene los datos operativos de su cuenta, ubicados en el catálogo system
. Las tablas del sistema se pueden usar para la observabilidad histórica en toda la cuenta.
Nota:
Para obtener documentación sobre system.information_schema
, vea Esquema de información.
Requisitos
- Para acceder a las tablas del sistema, el área de trabajo debe estar habilitada para el catálogo de Unity. Para obtener más información, consulte Tablas del sistema de acceso.
- Las tablas del sistema no están disponibles en las siguientes regiones:
- Regiones de Azure China
- Regiones de Azure Government
- Oeste de la India
- Oeste de Suiza
¿Qué tablas del sistema están disponibles?
Actualmente, Azure Databricks hospeda las siguientes tablas del sistema:
Tabla | Descripción | Ubicación | Admite transmisión en directo | Período gratuito de retención | Incluye datos globales o regionales |
---|---|---|---|---|---|
Registros de auditoría (versión preliminar pública) | Incluye registros para todos los eventos de auditoría de áreas de trabajo de su región. Para obtener una lista de los eventos de auditoría disponibles, consulte Referencia del registro de diagnóstico. | system.access.audit |
Sí | 365 días | Regional para eventos de nivel de área de trabajo. Global para eventos de nivel de cuenta. |
Linaje de tabla | Incluye un registro para cada evento de lectura o escritura en una tabla o ruta de acceso de Unity Catalog. | system.access.table_lineage |
Sí | 365 días | Regional |
Linaje de columnas | Incluye un registro para cada evento de lectura o escritura en una columna catálogo de Unity (pero no incluye eventos que no tienen un origen). | system.access.column_lineage |
Sí | 365 días | Regional |
Uso facturable | Incluye registros de todo el uso facturable de su cuenta. | system.billing.usage |
Sí | 365 días | Global |
Precios | Un registro histórico de precios de SKU. Se agrega un registro cada vez que hay un cambio en un precio de SKU. | system.billing.list_prices |
No | Indefinida | Global |
Clústeres | Tabla de dimensiones de variación lenta que contiene el historial completo de configuraciones de proceso a lo largo del tiempo para cualquier clúster. | system.compute.clusters |
Sí | 365 días | Regional |
Escala de tiempo del nodo | Captura las métricas de uso de los recursos de proceso de todos los fines y trabajos. | system.compute.node_timeline |
Sí | 90 días | Regional |
Tipos de nodo | Captura los tipos de nodo disponibles actualmente con su información básica de hardware. | system.compute.node_types |
No | Indefinida | Regional |
Almacenes de SQL (versión preliminar pública) | Contiene el historial completo de configuraciones a lo largo del tiempo para cualquier almacenamiento de SQL. | system.compute.warehouses |
Sí | 365 días | Regional |
Eventos de SQL Warehouse (versión preliminar pública) | Captura eventos relacionados con los almacenes de SQL. Por ejemplo, iniciar, detener, ejecutar, escalar y reducir verticalmente. | system.compute.warehouse_events |
Sí | 365 días | Regional |
Trabajos versión preliminar pública | Realiza un seguimiento de todos los trabajos creados en la cuenta. | system.lakeflow.jobs |
Sí | 365 días | Regional |
Tareas de trabajo (versión preliminar pública) | Realiza un seguimiento de todas las tareas de trabajo que se ejecutan en la cuenta. | system.lakeflow.job_tasks |
Sí | 365 días | Regional |
Escala de tiempo de ejecución del trabajo (versión preliminar pública) | Realiza un seguimiento de las horas de inicio y finalización de las ejecuciones del trabajo. | system.lakeflow. job_run_timeline |
Sí | 365 días | Regional |
Cronograma de tareas laborales (versión preliminar pública) | Supervisa las horas de inicio y fin y los recursos de proceso usados para la ejecución de las tareas. | system.lakeflow. job_task_run_timeline |
Sí | 365 días | Regional |
Pipelines (versión preliminar pública) | Realiza un seguimiento de todas las canalizaciones creadas en la cuenta. | system.lakeflow.pipelines |
Sí | 365 días | Regional |
Eventos del embudo del marketplace (versión preliminar pública) | Incluye datos sobre las impresiones y el embudo de consumo de sus anuncios. | system.marketplace.listing_ funnel_events |
Sí | 365 días | Regional |
Acceso a la lista del Marketplace (versión preliminar pública) | Incluye información del consumidor para los eventos de solicitud de datos u obtención de datos completados en sus listados. | system.marketplace.listing_ access_events |
Sí | 365 días | Regional |
Optimización predictiva (versión preliminar pública) | Realiza un seguimiento del historial de operaciones de la característica de optimización predictiva. | system.storage.predictive_ optimization_operations_history |
No | 180 días | Regional |
Eventos del Asistente de Databricks (versión preliminar pública) | Realiza un seguimiento de los mensajes de usuario enviados al Asistente de Databricks. | system.access.assistant_events |
No | 365 días | Regional |
Historial de consultas (versión preliminar pública) | Captura registros de todas las consultas que se ejecutan en almacenes de SQL y proceso sin servidor para cuadernos y trabajos. | system.query.history |
No | 180 días | Regional |
Eventos en la sala limpia (Versión preliminar pública) | Captura eventos relacionados con las salas limpias. | system.access.clean_room_events |
Sí | 365 días | Regional |
Uso del modelo de puntos de conexión de servicio (versión preliminar pública) | Captura los recuentos de tokens para cada solicitud a un modelo de puntos de conexión de servicio y sus respuestas. Para registrar el uso del punto de conexión en esta tabla, debe habilitar el seguimiento de uso en tu punto de conexión. | system.serving.endpoint_usage . |
Sí | 90 días | Regional |
Datos de modelo de puntos de conexión de servicio (versión preliminar pública) | Una tabla de dimensiones de cambio lento que almacena metadatos para cada modelo de base servido en un modelo de puntos de conexión de servicio. | system.serving.served_entities |
Sí | 365 días | Regional |
Eventos de Acceso a la Red (Vista previa pública) | Tabla que registra un evento para cada vez que se deniega el acceso a Internet desde su cuenta. | system.access.outbound_network |
Sí | 365 días | Regional |
Eventos de materialización de datos compartidos de Delta Sharing | Captura los eventos de materialización de datos creados a partir de la vista, la vista materializada y el uso compartido de tablas de streaming. | system.sharing.materialization_history |
Sí | 365 días | Regional para eventos de nivel de área de trabajo. |
Áreas de trabajo (versión preliminar pública) | La tabla workspaces_latest es una tabla de dimensiones de variación lenta de metadatos para todas las áreas de trabajo de la cuenta. | system.access.workspaces_latest |
No | Indefinida | Global |
El uso de las tablas de precios y facturación es gratuito. Las tablas en versión preliminar pública también son gratuitas durante este período, pero podrían generar un cargo en el futuro.
Nota:
Es posible que vea otras tablas del sistema en su cuenta además de las enumeradas anteriormente. Esas tablas se encuentran actualmente en versión preliminar privada y están vacías de forma predeterminada. Si está interesado en usar cualquiera de estas tablas, póngase en contacto con el equipo de la cuenta de Databricks.
Relaciones de tablas del sistema
En el diagrama de relación de entidad siguiente se describe cómo se relacionan las tablas del sistema disponibles actualmente entre sí. En este diagrama se resaltan las claves principales y externas de cada tabla.
Acceso a tablas del sistema
Dado que las tablas del sistema se rigen por el catálogo de Unity, debe tener al menos un área de trabajo habilitada para catálogos de Unity en su cuenta para acceder a las tablas del sistema de la cuenta. Las tablas del sistema incluyen datos de todas las áreas de trabajo de la cuenta, pero solo se puede acceder a ellas desde un área de trabajo habilitada para el catálogo de Unity.
El metastore debe estar en Unity Catalog Privilege Model Versión 1.0 para poder acceder a las tablas del sistema. Consulte Actualización a la herencia de privilegios.
Nota:
Los esquemas marketplace
y materialization_history
deben habilitarse manualmente. Otros esquemas se habilitarán de forma predeterminada.
Concesión de acceso a las tablas del sistema
El acceso a las tablas del sistema se rige por el catálogo de Unity. De forma predeterminada, ningún usuario tiene acceso a estos esquemas del sistema. Para conceder acceso, un usuario que sea un administrador de metastore y un administrador de cuenta debe conceder USE
y SELECT
permisos en los esquemas del sistema. Consulte Administración de privilegios en Unity Catalog.
Las tablas del sistema son de solo lectura y no se pueden modificar.
Nota:
Si la cuenta se creó después del 9 de noviembre de 2023, es posible que no tenga un administrador de metastore de forma predeterminada. Para obtener más información, consulte Introducción al catálogo de Unity.
¿Las tablas del sistema contienen datos para todas las áreas de trabajo de la cuenta?
Las tablas del sistema contienen datos operativos para todas las áreas de trabajo de la cuenta implementadas en la misma región de nube. Algunas tablas incluyen datos globales. Para obtener más información, consulte la lista de tablas disponibles.
Aunque solo se puede acceder a las tablas del sistema a través de un área de trabajo de Catálogo de Unity, incluyen datos operativos de áreas de trabajo que no son del catálogo de Unity en la cuenta.
¿Dónde se almacenan los datos de la tabla del sistema?
Los datos de la tabla del sistema de su cuenta se almacenan en una cuenta de almacenamiento alojada en Azure Databricks, situada en la misma región que su metastore. Los datos se comparten de forma segura con usted mediante Delta Sharing.
Cada tabla tiene un período de retención de datos gratuito. Para obtener información sobre cómo ampliar el período de retención, póngase en contacto con el equipo de la cuenta de Azure Databricks.
¿Dónde se encuentran las tablas del sistema en el Explorador de catálogos?
Las tablas del sistema de tu cuenta se encuentran en un catálogo llamado system
, que se incluye en todos los metadatos del Catálogo Unity. En el system
catálogo, verá esquemas como access
y billing
que contienen las tablas del sistema.
Consideraciones para las tablas del sistema de streaming
Azure Databricks usa Delta Sharing para compartir datos de tabla del sistema con los clientes. Tenga en cuenta las siguientes consideraciones al transmitir con Delta Sharing:
- Si usa streaming con tablas del sistema, establezca la
skipChangeCommits
opción entrue
. Esto garantiza que el trabajo de streaming no se vea interrumpido por eliminaciones realizadas en las tablas del sistema. Consulte Omisión de actualizaciones y eliminaciones. Trigger.AvailableNow
no se admite con streaming de uso compartido delta. Se convertirá enTrigger.Once
.
Si se utiliza un desencadenador para el trabajo de streaming y se observa que no está actualizado a la versión más reciente de la tabla del sistema, Databricks recomienda aumentar la frecuencia programada del trabajo.
Leer los cambios incrementales de las tablas del sistema de streaming
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Problemas conocidos
- Las nuevas columnas se pueden agregar a las tablas del sistema existentes en cualquier momento. Las consultas que dependen de un esquema fijo pueden interrumpirse si se introducen nuevas columnas. Las columnas existentes no cambiarán ni se quitarán. Si va a escribir datos de tabla del sistema en otra tabla de destino, considere la posibilidad de habilitar la evolución del esquema.
- No se admite la supervisión en tiempo real. Los datos se actualizan a lo largo del día. Si no ve un registro para un evento reciente, vuelva a comprobarlo más adelante.
- El esquema de tabla del sistema
__internal_logging
admite el registro de carga mediante tablas de inferencia habilitadas para puerta de enlace IA para modelos externos y cargas de trabajo aprovisionadas. Este esquema es visible para los administradores de cuentas, pero no se puede habilitar y no debe usarse para los flujos de trabajo del cliente.
- Para habilitar las tablas del sistema, es posible que tenga que conceder acceso de red al punto de conexión de Blob Storage de las tablas del sistema. Para ver una lista de puntos finales de almacenamiento de las tablas de sistema de cada región, consulte Direcciones IP de puntos finales de almacenamiento.
- Los esquemas del
system.operational_data
sistema ysystem.lineage
están en desuso y contendrán tablas vacías.