Compartir a través de


Consulta de tablas externas de Azure Storage

En Azure Data Explorer, puede usar Lenguaje de consulta Kusto (KQL) para consultar tablas externas almacenadas en Azure Storage. Las tablas externas de Azure Storage se pueden consultar de la misma manera que consultaría una tabla normal en Azure Data Explorer.

Funcionamiento

Al crear una tabla externa, se proporcionan una o varias cadena de conexión que son rutas de acceso a contenedores de blobs de Azure Blob Storage. Al escribir una consulta en la tabla externa, se enumeran los blobs de los contenedores especificados y cada una de ellas se examina para responder a la consulta.

Partitioning

Al escribir una consulta en una tabla externa de Azure Storage con particiones, solo se accede a las carpetas que coinciden con los filtros, en lugar de todas las carpetas. Esto reduce la cantidad de datos que se deben procesar y tiene una posibilidad de mejorar significativamente el rendimiento de las consultas.

Optimización del rendimiento de las consultas con archivos Parquet

Se recomienda usar el formato de datos Parquet para optimizar el rendimiento de las consultas para las tablas externas de Azure Storage.

  • Parquet es un formato de almacenamiento en columnas, lo que significa que los datos se almacenan en columnas en lugar de filas. Las consultas que solo necesitan tener acceso a determinadas columnas de los datos pueden ser mucho más eficaces en Parquet, ya que solo las columnas pertinentes deben leerse desde Azure Storage.

  • Los archivos Parquet suelen incluir metadatos, lo que acelera significativamente el procesamiento de consultas. Estos metadatos permiten recuperar rápidamente información esencial, como recuentos de columnas, valores mínimos y máximos, y otras estadísticas para cada bloque de datos, lo que elimina la necesidad de examinar todas las filas.

  • Al ejecutar consultas filtradas, los metadatos del archivo Parquet se pueden usar para identificar archivos o secciones de archivos que contienen datos pertinentes. Esta capacidad significa que solo se deben procesar los datos necesarios, lo que hace que el rendimiento de las consultas sea más rápido.