Compartir vía


Introducción a las tablas de Azure Databricks

Una tabla reside en un esquema y contiene filas de datos. El tipo de tabla predeterminado creado en Azure Databricks es una tabla administrada por el catálogo de Unity.

El diferenciador principal para los tipos de tabla en Azure Databricks es el catálogo propietario, como se describe en la tabla siguiente:

Tipo de tabla Administración del catálogo Compatibilidad con lectura y escritura Optimización del rendimiento Optimización de costos de almacenamiento
Administradas Catálogo de Unity
Externo Ninguno (solo archivos) Solo manual Solo manual
Extranjero Un servicio de catálogo o sistema externo Solo para lectura No No

En el ejemplo siguiente se muestra una tabla denominada prod.people_ops_employees que contiene datos sobre cinco empleados. Los metadatos se registran en el Catálogo de Unity y los datos se almacenan en el almacenamiento en la nube.

Tabla de ejemplo que contiene datos de empleados

Formatos de almacenamiento: Delta Lake y Apache Iceberg

Los tipos de tabla de Azure Databricks definen cómo se posee y se accede a los mismos. Por separado, el formato de almacenamiento define cómo se estructuran físicamente los datos y se realiza un seguimiento en el disco.

Azure Databricks admite dos formatos de tabla abierto principales: Delta Lake y Apache Iceberg. Estos formatos agregan una capa de almacenamiento transaccional que realiza un seguimiento de los metadatos y habilitan el cumplimiento de ACID, el viaje en el tiempo y otras características.

  • Delta Lake es el formato de almacenamiento predeterminado para tablas administradas y externas en Azure Databricks.
  • Apache Iceberg se admite en tablas administradas y externas en Azure Databricks. Este formato es útil cuando se integra con el ecosistema de Iceberg.

Tablas administradas

Las tablas administradas administran los archivos de datos subyacentes junto con el registro de metastore. Databricks recomienda usar tablas administradas cada vez que cree una nueva tabla. Las tablas administradas por El catálogo de Unity son las predeterminadas al crear tablas en Azure Databricks. Consulte Tablas administradas del catálogo de Unity en Azure Databricks para Delta Lake y Apache Iceberg.

Tablas externas

Las tablas externas, a veces llamadas tablas no administradas, hacen referencia a los datos almacenados fuera de Databricks en un sistema de almacenamiento externo, como el almacenamiento de objetos en la nube. Desacoplan la administración de archivos de datos subyacentes del registro de metastore. Unity Catalog admite tablas externas en varios formatos, incluido Delta Lake. Las tablas externas del Catálogo de Unity pueden almacenar archivos de datos mediante formatos comunes legibles por sistemas externos. Vea Trabajar con tablas externas.

Tablas externas

Las tablas externas representan los datos almacenados en sistemas externos conectados a Azure Databricks mediante la federación de Lakehouse. Las tablas externas son de solo lectura en Azure Databricks. Consulte Trabajar con tablas externas.

Tablas en Unity Catalog

En el catálogo de Unity, las tablas se encuentran en el tercer nivel del espacio de nombres de tres niveles (catalog.schema.table), como se muestra en el diagrama siguiente.

Diagrama del modelo de objetos de Unity Catalog, centrado en la tabla

Permisos de tabla básicos

La mayoría de las operaciones de tabla requieren permisos USE CATALOG y USE SCHEMA en el catálogo y el esquema que contiene una tabla.

En la tabla siguiente se resumen los permisos adicionales necesarios para las operaciones comunes de tabla en el catálogo de Unity:

Operación Permisos
Creación de una tabla CREATE TABLE en el esquema contenedor
Consultar una tabla SELECT de la tabla
Actualizar, eliminar, combinar o insertar datos en una tabla SELECT y MODIFY en la tabla
Quitar una tabla MANAGE de la tabla
Reemplazar una tabla MANAGE en la tabla , CREATE TABLE en el esquema contenedor

Para obtener más información sobre los permisos del catálogo de Unity, consulte Administrar privilegios en el catálogo de Unity.