Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Las tablas externas, a veces denominadas tablas federadas, son tablas registradas mediante el Catálogo de Unity como parte de un catálogo externo. Las tablas externas contienen datos y metadatos administrados por sistemas externos, con el Catálogo de Unity que agrega gobernanza de datos para consultar estas tablas.
Azure Databricks admite los métodos siguientes para registrar tablas externas:
- La federación de consultas usa conexiones JDBC seguras para federar a sistemas de datos externos, como PostgreSQL y MySQL.
- La federación de catálogos conecta catálogos externos, como un metastore de Hive o Snowflake Horizon Catalog, para consultar los datos directamente en el almacenamiento de archivos.
Important
Para la compatibilidad con versiones anteriores con cargas de trabajo heredadas de Apache Spark y Azure Databricks, las tablas externas de un metastore de Hive federado devuelven metadatos de metastore de Hive, incluido si la tabla es una tabla administrada de Hive o una tabla externa de Hive.
¿Por qué usar una tabla externa?
Las tablas externas proporcionan flexibilidad al integrar Azure Databricks con sistemas de datos existentes o migrar desde sistemas heredados.
Muchas tablas externas sirven como solución temporal para el acceso directo a los datos no administrados por Azure Databricks, ya que proporcionan una solución rápida sin necesidad de migración de datos ni refactorización de código para flujos de trabajo ETL ascendentes. Databricks recomienda migrar conjuntos de datos que impulsan cargas de trabajo de producción o se consultan con frecuencia en tablas administradas de Unity Catalog, ya que las tablas administradas proporcionan el mejor rendimiento y tienen muchas optimizaciones integradas. Consulte Conversión de una tabla externa en una tabla de catálogo de Unity administrada.
La federación de consultas proporciona una solución gratuita para cargar datos desde sistemas de datos externos no compatibles con Lakeflow Connect. Databricks recomienda usar vistas materializadas para replicar tablas externas en el catálogo de Unity. Consulte Carga de datos de tablas externas con vistas materializadas.
Crear o escribir en tablas externas
Si tiene suficientes privilegios y su área de trabajo está configurada con un metastore interno federado de Hive, puede crear o escribir en tablas externas que estén respaldadas por ese metastore interno federado de Hive. El metastore federado externo de Hive y todas las tablas externas a las que se accede a través de la federación de Lakehouse son de solo lectura.
Aunque las tablas externas son de solo lectura, el campo Actualizado por muestra al usuario que desencadenó la actualización de metadatos más reciente. Azure Databricks actualiza automáticamente los metadatos de la tabla externa durante las consultas cuando detecta que los metadatos están obsoletos. Como resultado, el campo Actualizado por muestra quién current_user ejecutó la consulta, aunque ese usuario no modificó los datos subyacentes.
Azure Databricks no administra los metadatos, los datos ni la semántica de las escrituras en tablas externas. Las tablas externas pueden estar respaldadas por un formato compatible con ACID, como Delta Lake o Apache Iceberg, pero las tablas externas no proporcionan las garantías transaccionales de las tablas administradas por el catálogo de Unity.
La mayoría de las optimizaciones de Azure Databricks para el rendimiento de consultas, la velocidad de escritura mejorada, la omisión de datos y las consultas solo de metadatos requieren Unity Catalog. Databricks recomienda comparar el rendimiento de las consultas de lectura y escritura entre tablas externas y tablas administradas de Unity Catalog mediante la versión más reciente de Databricks Runtime para evaluar la latencia y las diferencias de costos. Consulte Tablas administradas del catálogo de Unity en Azure Databricks para Delta Lake y Apache Iceberg.