Funcionamiento de Azure Data Explorer

Azure Data Explorer proporciona un rendimiento sin precedentes para ingerir y consultar datos de telemetría, registros, eventos, seguimientos y series temporales. Cuenta con formatos de almacenamiento optimizados, índices y usa estadísticas de datos avanzadas para una planificación eficaz de consultas y ejecución de consultas compiladas Just-In-Time.

Almacenamiento frente a proceso

Azure Data Explorer separa los recursos de almacenamiento y proceso. Los datos persistentes residen en Azure Blob Storage, mientras que los recursos de proceso pueden almacenar datos temporales o actuar como una memoria caché para el almacenamiento persistente.

Esta separación proporciona las siguientes ventajas:

Almacenamiento de datos

Azure Data Explorer crea particiones de todos los datos ingeridos en extensiones o particiones de datos, que son segmentos horizontales de la tabla de destino. Una extensión puede comenzar tan pequeña como un único registro. A medida que los datos se acumulan en la tabla, Azure Data Explorer combina automáticamente extensiones hasta que crecen para abarcar millones de registros. Cada extensión se codifica e indiza independientemente de otras extensiones. Esta funcionalidad contribuye al rendimiento de ingesta de la ingesta de escala lineal.

Las extensiones se distribuyen uniformemente entre los nodos del clúster, donde se almacenan en caché tanto en el SSD local como en la memoria. Esta distribución mejora la capacidad para preparar y ejecutar consultas muy distribuidas y paralelas.

Para obtener más información sobre el almacenamiento de datos, consulte Información general sobre extensiones.

Nota

Azure Data Explorer también conserva metadatos esenciales, como esquemas de tabla y objetos de directiva. Para obtener una lista de las directivas, consulte Introducción a las directivas.

Caché de datos

Azure Data Explorer tiene un sistema de caché de datos de varias jerarquías para asegurarse de que los datos más relevantes se almacenan en caché lo más cerca posible de la CPU. El sistema de caché depende de la inmutabilidad de las extensiones y funciona completamente con datos comprimidos. Para mejorar el rendimiento de las consultas, los datos permanecen comprimidos incluso en ram y solo se descomprimen cuando se requiere para una consulta.

Para más información sobre el almacenamiento en caché, consulte Directiva de caché.

Indexación de texto

Azure Data Explorer está diseñado para indexar eficazmente columnas de texto libre (cadena) y de tipo JSON (dinámicos) a medida que se ingieren datos. Los índices mantienen un nivel de granularidad que permite la evaluación de partes de la consulta en función del índice sin examinar los datos.

La optimización continua en segundo plano de las extensiones mediante la combinación mejora la compresión y la indexación, lo que garantiza un almacenamiento eficaz y una latencia de consulta baja. Una vez que las extensiones alcanzan un tamaño determinado, solo se combinan los índices para mejorar el rendimiento de las consultas sin poner en peligro la eficacia.

Para obtener más información sobre la extensión y la combinación de índices, consulte Directiva de combinación.

Almacén de filas

Azure Data Explorer ofrece una solución de almacenamiento intermedia denominada almacén de filas. El almacén de filas permite la ingesta eficaz de pequeñas partes de datos y garantiza que estos datos estén disponibles inmediatamente para la consulta. Al habilitar la ingesta de streaming en el clúster, los datos se ingieren inicialmente en el almacén de filas y, a continuación, se mueven a extensiones de almacén de columnas.

Para obtener más información, vea Procesamiento por lotes frente a ingesta de streaming.

Compresión de columna

Azure Data Explorer mantiene los datos en un estado comprimido, lo que reduce la cantidad de memoria necesaria para almacenar y procesar datos. Este comportamiento da como resultado un rendimiento de consulta más rápido y un uso más eficaz de los recursos del sistema.

Azure Data Explorer evita la compresión vertical, lo que implica ordenar los datos para mejorar la compresión, debido a su alto costo de CPU en escenarios de datos semiestructurados o de texto libre. En su lugar, puede especificar el criterio de ordenación de datos preferido para escenarios con patrones de consulta dominantes. Esta compensación da prioridad a la disponibilidad rápida de los datos para las consultas.

Para obtener más información sobre cómo especificar el criterio de ordenación de datos, consulte Directiva de orden de fila.

Consulta de datos distribuidos

Azure Data Explorer usa la tecnología de consulta de datos distribuida diseñada para realizar análisis ad hoc rápidos en grandes conjuntos de datos no estructurados. Entre las características clave de esta tecnología se incluyen:

  • Los datos temporales generados por consultas se almacenan en RAM agregada.
  • Las extensiones pertinentes se marcan en un plan de consulta, lo que proporciona aislamiento de instantáneas
  • Las consultas rápidas y eficaces se priorizan con tiempos de espera predeterminados cortos.
  • Compatibilidad nativa con consultas entre clústeres que minimizan el intercambio de datos entre clústeres
  • Las consultas se compilan just-in-time en código de máquina altamente eficiente, con estadísticas de datos de todas las extensiones y adaptadas a los detalles de codificación de columnas

Nota

Azure Data Explorer está diseñado para trabajar con la Lenguaje de consulta Kusto (KQL), creada de forma personalizada para Azure Data Explorer. Además, se admite T-SQL .