Maximizar la calidad de los grupos de filas para los índices columnstore en un pool de SQL dedicado

Sugerencia

Microsoft Fabric Data Warehouse es un almacenamiento relacional de escala empresarial en una base de lago de datos, con una arquitectura lista para el futuro, inteligencia artificial integrada y nuevas características. Si no está familiarizado con el almacenamiento de datos, comience con Fabric Data Warehouse. Las cargas de trabajo del grupo de SQL dedicadas pueden actualizarse a Fabric para acceder a nuevas funcionalidades en ciencia de datos, análisis en tiempo real e informes.

La calidad de un grupo de filas se determina por el número de filas que contiene. Aumentar la memoria disponible puede maximizar el número de filas que un índice de almacén de columnas comprime en cada grupo de filas. Use estos métodos para mejorar las tasas de compresión y el rendimiento de las consultas para los índices de almacén de columnas.

¿Por qué importa el tamaño del grupo de filas?

Dado que un índice de almacén de columnas examina una tabla mediante el examen de segmentos de columna de grupos de filas individuales, la maximización del número de filas de cada grupo de filas mejora el rendimiento de las consultas.

Cuando los grupos de filas tienen un gran número de filas, la compresión de datos mejora, lo que significa que hay menos datos que leer desde el disco.

Para obtener más información sobre los grupos de filas, vea Guía de índices de almacén de columnas.

Tamaño objetivo para grupos de filas

Para obtener el mejor rendimiento de las consultas, el objetivo es maximizar el número de filas por grupo de filas en un índice de almacén de columnas. Un grupo de filas puede tener un máximo de 1048 576 filas.

Está bien no tener el número máximo de filas por grupo de filas. Los índices de almacenamiento en columnas logran un buen rendimiento cuando los grupos de filas tienen al menos 100 000 filas.

Los grupos de filas se pueden recortar durante la compresión

Durante una carga masiva o reconstrucción de un índice de almacén de columnas, a veces no hay suficiente memoria disponible para comprimir todas las filas designadas para cada grupo de filas de columnas. Cuando existe una presión de memoria, los índices de almacén de columnas recortan el tamaño de los grupos de filas para que se pueda realizar la compresión en el almacén de columnas.

Cuando no hay memoria suficiente para comprimir al menos 10 000 filas en cada grupo de filas, se generará un error.

Para más información sobre cómo cargar datos en grandes volúmenes, consulte Cargar datos en grandes volúmenes en un índice de almacén de columnas agrupado.

Cómo monitorear la calidad del grupo de filas

La vista de administración dinámica sys.dm_pdw_nodes_db_column_store_row_group_physical_stats (sys.dm_db_column_store_row_group_physical_stats contiene la definición de vista que coincide con SQL DB) que expone información útil, como el número de filas en los grupos de filas y el motivo del recorte (si es que se recortó).

Puede crear la siguiente vista como una forma práctica para consultar esta DMV a fin de obtener información sobre el recorte del grupo de filas.

create view dbo.vCS_rg_physical_stats
as
with cte
as
(
select   tb.[name]                    AS [logical_table_name]
,        rg.[row_group_id]            AS [row_group_id]
,        rg.[state]                   AS [state]
,        rg.[state_desc]              AS [state_desc]
,        rg.[total_rows]              AS [total_rows]
,        rg.[trim_reason_desc]        AS trim_reason_desc
,        mp.[physical_name]           AS physical_name
FROM    sys.[schemas] sm
JOIN    sys.[tables] tb               ON  sm.[schema_id]          = tb.[schema_id]
JOIN    sys.[pdw_table_mappings] mp   ON  tb.[object_id]          = mp.[object_id]
JOIN    sys.[pdw_nodes_tables] nt     ON  nt.[name]               = mp.[physical_name]
JOIN    sys.[dm_pdw_nodes_db_column_store_row_group_physical_stats] rg      ON  rg.[object_id]     = nt.[object_id]
                                                                            AND rg.[pdw_node_id]   = nt.[pdw_node_id]
                                        AND rg.[distribution_id]    = nt.[distribution_id]
)
select *
from cte;

El trim_reason_desc indica si el grupo de filas se ha recortado(trim_reason_desc = NO_TRIM implica que no hay ningún recorte y el grupo de filas es de calidad óptima). Los siguientes motivos de recorte indican el recorte prematuro del grupo de filas:

BULKLOAD: este motivo de recorte se usa cuando el lote entrante de filas de la carga tenía menos de 1 millón de filas. El motor creará grupos de filas comprimidos si hay más de 100.000 filas que se van a insertar (en lugar de insertar en el almacén delta), pero establece el motivo de recorte en BULKLOAD. En este escenario, considere la posibilidad de aumentar la carga por lotes para incluir más filas. Además, vuelva a evaluar el esquema de partición para asegurarse de que no es demasiado granular si los grupos de filas no pueden abarcar los límites de partición.
MEMORY_LIMITATION: para crear grupos de filas con 1 millón de filas, el motor requiere una cierta cantidad de memoria de trabajo. Cuando la memoria disponible de la sesión de carga es inferior a la memoria de trabajo necesaria, los grupos de filas se recortan prematuramente. En las secciones siguientes se explica cómo calcular la memoria necesaria y asignar más memoria.
DICTIONARY_SIZE: este motivo de recorte indica que el recorte del grupo de filas se ha producido porque había al menos una columna de cadena con cadenas de cardinalidad anchas o altas. El tamaño del diccionario está limitado a 16 MB en memoria y, una vez alcanzado este límite, se comprime el grupo de filas. Si se encuentra en esta situación, considere la posibilidad de aislar la columna problemática en una tabla independiente.

Cómo calcular los requisitos de memoria

Para ver una estimación de los requisitos de memoria para comprimir un grupo de filas de tamaño máximo en un índice de almacén de columnas, considere la posibilidad de crear la vista de ejemplo dbo.vCS_mon_mem_grant. Esta consulta muestra el tamaño de la concesión de memoria que requiere un grupo de filas para su compresión en el almacén de columnas.

La memoria máxima necesaria para comprimir un grupo de filas es aproximadamente

72 MB +
#rows * #columns * 8 bytes +
#rows * #short-string-columns * 32 bytes +
#long-string-columns * 16 MB para el diccionario de compresión

Nota:

Las columnas de cadena corta usan tipos de datos de cadena de <= 32 bytes y columnas de cadena larga usan tipos de datos de cadena de > 32 bytes.

Las cadenas largas se comprimen con un método de compresión diseñado para comprimir texto. Este método de compresión usa un diccionario para almacenar patrones de texto. El tamaño máximo de un diccionario es de 16 MB. Solo hay un diccionario para cada columna de cadena larga en el grupo de filas.

Formas de reducir los requisitos de memoria

Ponga en práctica las siguientes técnicas a fin de reducir los requisitos de memoria para comprimir los grupos de filas en índices de almacén de columnas.

Uso de menos columnas

Si es posible, diseñe la tabla con menos columnas. Cuando un grupo de filas se comprime en el almacenamiento por columnas, el índice de almacenamiento por columnas comprime cada segmento de columna por separado.

Por lo tanto, los requisitos de memoria para comprimir un grupo de filas aumentan a medida que aumenta el número de columnas.

Uso de menos columnas de cadena

Las columnas de tipos de datos de cadena requieren más memoria que los tipos de datos numéricos y de fecha. Para reducir los requisitos de memoria, considere quitar columnas de tipo cadena de las tablas de hechos y colocarlas en tablas de dimensión más pequeñas.

Requisitos de memoria adicionales para la compresión de cadenas:

Los tipos de datos de cadena de hasta 32 caracteres pueden requerir 32 bytes adicionales por valor.
Los tipos de datos de cadena con más de 32 caracteres se comprimen mediante métodos de diccionario. Cada columna del grupo de filas puede requerir hasta 16 MB adicionales para compilar el diccionario.

Evitar la sobrepartición

Los índices de almacén de columnas crean uno o varios grupos de filas por cada partición. En el caso del grupo de SQL dedicado en Azure Synapse Analytics, el número de particiones crece rápidamente porque los datos se distribuyen y cada distribución tiene particiones.

Si la tabla tiene demasiadas particiones, es posible que no haya suficientes filas para rellenar los grupos de filas. La falta de filas no crea presión de memoria durante la compresión. Sin embargo, conduce a grupos de filas que no logran el mejor rendimiento de las consultas de almacenamiento en columna.

Otro motivo para evitar la creación de particiones excesivas es que hay una sobrecarga de memoria para cargar filas en un índice de almacén de columnas en una tabla con particiones.

Durante una carga, muchas particiones podrían recibir las filas entrantes, que se mantienen en memoria hasta que cada partición tenga suficientes filas para comprimirse. Tener demasiadas particiones crea una presión adicional de memoria.

Simplificación de la consulta de carga

La base de datos comparte la concesión de memoria para una consulta entre todos los operadores de la consulta. Cuando una consulta de carga tiene ordenación y combinaciones complejas, se reduce la memoria disponible para la compresión.

Diseñe la consulta de carga para centrarse solo en cargar la consulta. Si necesita ejecutar transformaciones en los datos, ejecútelos de forma independiente de la consulta de carga. Por ejemplo, almacene provisionalmente los datos en una tabla de montón, ejecute las transformaciones y, después, cargue la tabla de almacenamiento provisional en el índice de almacén de columnas.

Sugerencia

También puede cargar primero los datos y, a continuación, usar el sistema MPP para transformar los datos.

Ajustar MAXDOP

Cada distribución comprime los grupos de filas en el almacén de columnas en paralelo cuando hay más de un núcleo de CPU disponible por distribución.

El paralelismo requiere recursos de memoria adicionales, lo que puede provocar presión de la memoria y el recorte de grupos de filas.

Para reducir la presión de memoria, puede usar la sugerencia de consulta MAXDOP para forzar que la operación de carga se ejecute en modo serie dentro de cada distribución.

CREATE TABLE MyFactSalesQuota
WITH (DISTRIBUTION = ROUND_ROBIN)
AS SELECT * FROM FactSalesQuota
OPTION (MAXDOP 1);

Formas de asignar más memoria

El tamaño de DWU y la clase de recursos de usuario determinan la cantidad de memoria disponible para una consulta de usuario.

Para aumentar la concesión de memoria para una consulta de carga, puede aumentar el número de DWUs o aumentar la clase de recurso.

Para aumentar las DWU, consulte ¿Cómo se escala el rendimiento?
Para cambiar la clase de recurso de una consulta, consulte Cambio de un ejemplo de clase de recurso de usuario.

Pasos siguientes

Para encontrar más formas de mejorar el rendimiento del grupo de SQL dedicado, consulte Información general sobre el rendimiento.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-03