Consultar datos

2025-06-11

La consulta de datos es el paso fundamental para realizar casi todas las tareas controladas por datos en Azure Databricks. Independientemente del lenguaje o la herramienta que se use, las cargas de trabajo comienzan definiendo una consulta en una tabla u otro origen de datos y realizando acciones para obtener información de los datos. En este artículo se describen los conceptos básicos y los procedimientos para ejecutar consultas en varias ofertas de productos de Azure Databricks e incluye ejemplos de código que puede adaptar para su caso de uso.

Puede consultar datos de forma interactiva mediante:

Cuaderno
Editor de SQL
Editor de archivos
Paneles

También puede ejecutar consultas como parte de las canalizaciones declarativas o trabajos de Lakeflow.

Para obtener información general sobre las consultas de streaming en Azure Databricks, vea Consulta de datos de streaming.

¿Qué datos puede consultar con Azure Databricks?

Azure Databricks admite la consulta de datos en varios formatos y sistemas empresariales. Los datos que consulta mediante Azure Databricks se dividen en una de las dos categorías generales: los datos de una instancia de Databricks Lakehouse y datos externos.

¿Qué datos hay en una instancia de Databricks lakehouse?

Databricks Data Intelligence Platform almacena todos los datos en un Databricks lakehouse de forma predeterminada.

Esto significa que, al ejecutar una instrucción CREATE TABLE básica para crear una nueva tabla, ha creado una tabla lakehouse. Los datos de Lakehouse tienen las siguientes propiedades:

Almacenado en el formato Delta Lake.
Almacenado en el almacenamiento de objetos en la nube.
Gobernado por Unity Catalog.

La mayoría de los datos de Lakehouse en Azure Databricks se registran en el catálogo de Unity como tablas administradas. Las tablas administradas proporcionan la sintaxis más sencilla y se comportan como otras tablas en la mayoría de los sistemas de administración de bases de datos relacionales. Las tablas administradas se recomiendan para la mayoría de los casos de uso y son adecuadas para todos los usuarios que no quieren preocuparse por los detalles de implementación del almacenamiento de datos.

Una tabla no administrada, o tabla externa, es una tabla registrada con un LOCATION especificado. El término externo puede ser engañoso, ya que las tablas delta externas siguen siendo datos de lakehouse. Las tablas no administradas pueden ser preferidas por los usuarios que acceden directamente a las tablas de otros clientes de lector delta. Para obtener información general sobre las diferencias en la semántica de tablas, consulte Introducción a las tablas de Azure Databricks.

Algunas cargas de trabajo heredadas pueden interactuar exclusivamente con los datos de Delta Lake a través de rutas de acceso de archivo y no registrar tablas en absoluto. Estos datos siguen siendo datos de lakehouse, pero pueden ser más difíciles de detectar porque no están registrados en el catálogo de Unity.

Nota:

Es posible que el administrador del área de trabajo no haya actualizado la gobernanza de datos para usar Unity Catalog. Todavía puede obtener muchas de las ventajas de una instancia de almacén de lago de Databricks sin Unity Catalog, pero no todas las funcionalidades enumeradas en este artículo o en toda la documentación de Azure Databricks son compatibles.

¿Qué datos se consideran externos?

Los datos que no están en un Databricks Lakehouse pueden considerarse datos externos. Algunos ejemplos de datos externos son los siguientes:

Tablas extranjeras registradas con la Federación de Lakehouse.
Tablas del metastore de Hive respaldadas por Parquet.
Tablas externas de Unity Catalog respaldadas por JSON.
Datos CSV almacenados en el almacenamiento de objetos en la nube.
Datos de streaming leídos desde Kafka.

Azure Databricks admite la configuración de conexiones a muchos orígenes de datos. Consulte Conexión a orígenes de datos y servicios externos.

Aunque puede usar Unity Catalog para controlar el acceso y definir tablas en los datos almacenados en varios formatos y sistemas externos, Delta Lake es un requisito para que los datos se consideren en almacén de lago.

Delta Lake proporciona todas las garantías transaccionales en Azure Databricks, que son cruciales para mantener la integridad y la coherencia de los datos. Si desea obtener más información sobre las garantías transaccionales en los datos de Azure Databricks y por qué son importantes, consulte ¿Qué son las garantías ACID en Azure Databricks?.

La mayoría de los usuarios de Azure Databricks consultan una combinación de datos de lakehouse y datos externos. La conexión con datos externos siempre es el primer paso para las canalizaciones de ingesta de datos y ETL que incorporan datos al almacén de lago. Para obtener información sobre la ingesta de datos, consulte Conectores estándar en Lakeflow Connect.

Tablas de consulta por nombre

Para todos los datos registrados como una tabla, Databricks recomienda consultar con el nombre de la tabla.

Si usa el catálogo de Unity, las tablas usan un espacio de nombres de tres niveles con el formato siguiente: <catalog-name>.<schema-name>.<table-name>.

Sin Unity Catalog, los identificadores de tabla usan el formato <schema-name>.<table-name>.

Nota:

Azure Databricks hereda gran parte de su sintaxis SQL de Apache Spark, que no diferencia entre SCHEMA y DATABASE.

La consulta por nombre de tabla se admite en todos los contextos de ejecución de Azure Databricks y en los lenguajes admitidos.

SQL

SELECT * FROM catalog_name.schema_name.table_name

Pitón

spark.read.table("catalog_name.schema_name.table_name")

Resolución de identificadores del Unity Catalog

Databricks recomienda usar identificadores completos cuando las consultas o cargas de trabajo interactúan con objetos de base de datos almacenados en varios esquemas o catálogos.

En la tabla siguiente se describen los comportamientos de los identificadores parcialmente calificados y no calificados:

Patrón de identificador	Comportamiento
`catalog_name.schema_name.object_name`	Hace referencia al objeto de base de datos especificado por el identificador.
`schema_name.object_name`	Hace referencia al objeto de base de datos asociado al `schema_name` y `object_name` especificados en el catálogo actual.
`object_name`	Hace referencia al objeto de base de datos asociado al `object_name` especificado en el catálogo y el esquema actuales.

¿Cuál es el catálogo y el esquema actuales?

En entornos de cálculo interactivo, use current_catalog() y current_schema() para confirmar el catálogo y el esquema actuales.

Todas las áreas de trabajo configuradas con el catálogo de Unity tienen un catálogo predeterminado establecido en el nivel de área de trabajo. Consulte Administración del catálogo predeterminado.

En la tabla siguiente se describen las configuraciones de los productos de Databricks que podrían invalidar el catálogo predeterminado del área de trabajo:

Producto	Configuración
Cómputo para uso general o por tareas	Configure la configuración de Spark `spark.databricks.sql.initial.catalog.namespace` al configurar el cómputo.
Canalizaciones declarativas de Lakeflow	El catálogo y el esquema especificados durante la configuración de canalización invalidan los valores predeterminados del área de trabajo para toda la lógica de canalización.

Nota:

Las configuraciones de JDBC también pueden establecer el catálogo o el esquema predeterminados al conectarse a sistemas externos o metastores. Póngase en contacto con el administrador responsable de configurar los sistemas integrados y de proceso de Databricks si encuentra un comportamiento predeterminado inesperado.

Use la sintaxis USE CATALOG o USE SCHEMA para especificar el catálogo o el esquema actuales para la sesión actual. El catálogo o esquema actual se emplea cuando una consulta o instrucción utiliza un identificador parcialmente cualificado o no cualificado.

Declaración	Resultado
`USE CATALOG catalog_name`	Establece el catálogo actual mediante el `catalog_name` proporcionado. Establece el esquema actual en `default`.
`USE SCHEMA schema_name`	Establece el esquema actual mediante el `schema_name` proporcionado en el catálogo actual.
`USE SCHEMA catalog_name.schema_name`	Establezca el catálogo actual mediante el `catalog_name` proporcionado y el esquema actual mediante el `schema_name`proporcionado.

Nota:

Las consultas y comandos que usan identificadores completos para interactuar con objetos como tablas, vistas, funciones o modelos no cambian el catálogo o esquema actual y siempre hacen referencia al objeto especificado.

Consulta de datos por ruta

Puede consultar datos estructurados, semiestructurados y no estructurados mediante rutas de acceso de archivo. La mayoría de los archivos de Azure Databricks están respaldados por el almacenamiento de objetos en la nube. Consulte Trabajar con archivos en Azure Databricks.

Databricks recomienda configurar todo el acceso al almacenamiento de objetos en la nube mediante Unity Catalog y definir volúmenes para ubicaciones de almacenamiento de objetos que se consultan directamente. Los volúmenes proporcionan alias legibles a ubicaciones y archivos en el almacenamiento de objetos en la nube mediante nombres de catálogo y esquema para la ruta de acceso a archivos. Consulte Conexión al almacenamiento de objetos en la nube mediante el catálogo de Unity.

En los ejemplos siguientes se muestra cómo usar rutas de acceso de volumen del catálogo de Unity para leer datos JSON:

SQL

SELECT * FROM json.`/Volumes/catalog_name/schema_name/volume_name/path/to/data`

Pitón

spark.read.format("json").load("/Volumes/catalog_name/schema_name/volume_name/path/to/data")

En el caso de las ubicaciones en la nube que no están configuradas como volúmenes de Catálogo de Unity, puede consultar datos directamente mediante URI. Debe configurar el acceso al almacenamiento de objetos en la nube para consultar datos con URI. Consulte Configuración del acceso al almacenamiento de objetos en la nube para Azure Databricks mediante patrones heredados.

En los ejemplos siguientes se muestra cómo usar los URI para consultar datos JSON en Azure Data Lake Storage, GCS y S3:

SQL

SELECT * FROM json.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data`;

SELECT * FROM json.`gs://bucket_name/path/to/data`;

SELECT * FROM json.`s3://bucket_name/path/to/data`;

Pitón

spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

spark.read.format("json").load("gs://bucket_name/path/to/data")

spark.read.format("json").load("s3://bucket_name/path/to/data")

Consulta de datos mediante almacenes de SQL

Azure Databricks usa almacenes de SQL para el proceso en las interfaces siguientes:

Editor de SQL
Consultas SQL de Databricks
Paneles
Paneles heredados
Alertas de SQL

Opcionalmente, puede usar almacenes de SQL con los siguientes productos:

Notebooks de Databricks
Editor de archivos de Databricks
Trabajos de Lakeflow

Al consultar datos con almacenes de SQL, solo puede usar la sintaxis SQL. No se admiten otros lenguajes de programación ni API.

En el caso de las áreas de trabajo habilitadas para Unity Catalog, los almacenes de SQL siempre usan el Unity Catalog para administrar el acceso a los orígenes de datos.

La mayoría de las consultas que se ejecutan en almacenes SQL se dirigen a tablas objetivo. Las consultas que tienen como destino los archivos de datos deben aprovechar los volúmenes de Unity Catalog para administrar el acceso a las ubicaciones de almacenamiento.

El uso de URI directamente en consultas que se ejecutan en almacenes de SQL puede provocar errores inesperados.

Consulta de datos mediante todos los procesos de proceso o trabajos de uso

La mayoría de las consultas que se ejecutan desde cuadernos, flujos de trabajo y el editor de archivos de Databricks se procesan en clústeres configurados con Databricks Runtime. Puede configurar estos clústeres para que se ejecuten de forma interactiva o implementarlos como trabajos de proceso que impulsan los flujos de trabajo. Databricks recomienda usar siempre el proceso de trabajos para cargas de trabajo no interactivas.

Cargas de trabajo interactivas frente a no interactivas

Muchos usuarios consideran útil ver los resultados de la consulta mientras se procesan las transformaciones durante el desarrollo. Al mover una carga de trabajo interactiva del procesamiento de uso general al de trabajos, puede ahorrar tiempo y reducir costos de procesamiento al eliminar consultas que muestran resultados.

Apache Spark usa la ejecución diferida de código, lo que significa que los resultados se calculan solo según sea necesario y se pueden optimizar varias transformaciones o consultas en un origen de datos como una sola consulta si no fuerza resultados. Esto contrasta con el modo de ejecución diligente usado en pandas, que requiere que los cálculos se procesen en orden antes de pasar los resultados al método siguiente.

Si el objetivo es guardar los datos limpios, transformados y agregados como un nuevo conjunto de datos, debe quitar las consultas que muestran los resultados del código antes de programarlos para que se ejecuten.

En el caso de las operaciones pequeñas y los conjuntos de datos pequeños, el tiempo y el ahorro de costos pueden ser marginales. Sin embargo, con operaciones grandes, se puede desperdiciar el tiempo considerable calculando e imprimiendo resultados en un cuaderno que podría no inspeccionarse manualmente. Es probable que se consulten los mismos resultados de la salida guardada casi sin costo después de almacenarlos.

Compartir a través de

Consultar datos

¿Qué datos puede consultar con Azure Databricks?

¿Qué datos hay en una instancia de Databricks lakehouse?

¿Qué datos se consideran externos?

Tablas de consulta por nombre

SQL

Pitón

Resolución de identificadores del Unity Catalog

¿Cuál es el catálogo y el esquema actuales?

Consulta de datos por ruta

SQL

Pitón

SQL

Pitón

Consulta de datos mediante almacenes de SQL

Consulta de datos mediante todos los procesos de proceso o trabajos de uso

Cargas de trabajo interactivas frente a no interactivas

Comentarios

Recursos adicionales