Utilizar agrupación líquida para tablas

La agrupación en clústeres líquidos es una técnica de optimización de diseño de datos que reemplaza la creación de particiones de tablas y ZORDER. Simplifica la administración de tablas y optimiza el rendimiento de las consultas mediante la organización automática de datos en función de las claves de agrupación en clústeres.

A diferencia de la creación de particiones tradicional, puede volver a definir las claves de agrupación en clústeres sin volver a escribir los datos existentes. Esto permite que el diseño de los datos evolucione junto con las necesidades analíticas cambiantes. La agrupación en clústeres líquidos se aplica tanto a las tablas de streaming como a las vistas materializadas.

Important

La agrupación líquida está disponible de forma general para tablas Delta Lake y en Public Preview para tablas administradas Apache Iceberg. Para las tablas de Delta Lake, el soporte de disponibilidad general está disponible con Databricks Runtime 15.2 y versiones posteriores. Databricks recomienda usar el entorno de ejecución de Databricks más reciente para obtener el mejor rendimiento. En el caso de las tablas de Apache Iceberg, se requiere Databricks Runtime 16.4 LTS y versiones posteriores.

Cuándo usar clústeres líquidos

Databricks recomienda la agrupación en clústeres líquidos para todas las tablas nuevas, incluidas las tablas de streaming y las vistas materializadas. Los escenarios siguientes se benefician especialmente de la agrupación en clústeres:

Consultas que filtran por columnas de cardinalidad alta.
Tablas con desequilibrio significativo de datos.
Tablas de crecimiento rápido que requieren un esfuerzo de mantenimiento y optimización.
Tablas con requisitos de escritura concurrente.
Tablas con patrones de acceso variados o cambiantes.
Tablas en las que una clave de partición típica puede devolver resultados de demasiadas o muy pocas particiones.

Habilitación de la agrupación en clústeres líquidos

Puede habilitar la agrupación en clústeres líquidos en una tabla no particionada existente o durante la creación de tablas. La agrupación en clústeres no es compatible con la creación de particiones o ZORDER. Databricks recomienda permitir que la plataforma administre todas las operaciones de diseño y optimización de los datos de la tabla. Después de habilitar la agrupación líquida, ejecute OPTIMIZE tareas para agrupar datos de forma incremental. Consulte Cómo desencadenar la agrupación en clústeres.

Creación de tablas con agrupación en clústeres

Para habilitar la agrupación en clústeres líquidos, agregue la CLUSTER BY frase a una instrucción de creación de tablas, como en los ejemplos siguientes. En Databricks Runtime 14.2 y versiones posteriores, puede usar las API de DataFrame y la API deltaTable en Python o Scala para habilitar la agrupación en clústeres líquidos para tablas de Delta Lake.

SQL

-- Create an empty Delta table with clustering on col0
CREATE TABLE table1(col0 INT, col1 string) CLUSTER BY (col0);

-- Create table from existing data with clustering
-- Note: CLUSTER BY must appear after table name, not in SELECT clause
CREATE TABLE table2 CLUSTER BY (col0)
AS SELECT * FROM table1;

-- Copy table structure including clustering configuration
CREATE TABLE table3 LIKE table1;

Python

# Create an empty Delta table with clustering on col0
(DeltaTable.create()
  .tableName("table1")
  .addColumn("col0", dataType = "INT")
  .addColumn("col1", dataType = "STRING")
  .clusterBy("col0")  # Single clustering key
  .execute())

# Create clustered table from existing DataFrame
df = spark.read.table("table1")
df.write.clusterBy("col0").saveAsTable("table2")

# Alternative: DataFrameWriterV2 API (:re[DBR] 14.2+)
df = spark.read.table("table1")
df.writeTo("table1").using("delta").clusterBy("col0").create()

Scala

// Create an empty Delta table with clustering on col0
DeltaTable.create()
  .tableName("table1")
  .addColumn("col0", dataType = "INT")
  .addColumn("col1", dataType = "STRING")
  .clusterBy("col0")
  .execute()

// Create clustered table from existing DataFrame
val df = spark.read.table("table1")
df.write.clusterBy("col0").saveAsTable("table2")

// Alternative: DataFrameWriterV2 API (:re[DBR] 14.2+)
val df = spark.read.table("table1")
df.writeTo("table1").using("delta").clusterBy("col0").create()

Important

Al usar las API de DataFrame para establecer las claves de agrupación, solo puede especificar columnas de agrupación durante la creación de tablas o al usar el modo overwrite (como con operaciones CREATE OR REPLACE TABLE). No se pueden cambiar las claves de agrupación en clúster al usar el modo append.

Para cambiar las claves de agrupación en clústeres en una tabla existente al anexar datos, use comandos SQL ALTER TABLE para modificar la configuración de agrupación en clústeres por separado de las operaciones de escritura de datos. Consulte Cambio de claves de agrupación en clústeres.

En Databricks Runtime 16.0 y versiones posteriores, puede crear tablas con clústeres líquidos habilitados mediante escrituras de Structured Streaming. Databricks recomienda usar Databricks Runtime 16.4 y versiones posteriores para obtener el mejor rendimiento, como en los ejemplos siguientes:

SQL

CREATE TABLE table1 (
  col0 STRING,
  col1 DATE,
  col2 BIGINT
)
CLUSTER BY (col0, col1);

Python

(spark.readStream.table("source_table")
  .writeStream
  .clusterBy("column_name")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")
)

Scala

spark.readStream.table("source_table")
  .writeStream
  .clusterBy("column_name")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")

Warning

Las tablas Delta que tienen habilitada la agrupación líquida usan la versión 7 del escritor Delta y la versión 3 del lector. Los clientes delta que no admiten estos protocolos no pueden leer estas tablas. No se pueden degradar las versiones del protocolo de tabla. Consulte Compatibilidad y protocolos de características de Delta Lake.

Para invalidar la habilitación de características predeterminada (como vectores de eliminación), consulte Invalidación de la habilitación de características predeterminada (opcional).

Habilitar en tablas existentes

Habilite la agrupación en clústeres líquidos en una tabla Delta sin particiones existente mediante la sintaxis siguiente:

-- Alter an existing table
ALTER TABLE <table_name>
CLUSTER BY (<clustering_columns>)

Para Apache Iceberg, debe desactivar explícitamente los vectores de eliminación y los identificadores de fila al habilitar la agregación líquida en una tabla Iceberg administrada existente.

Note

El comportamiento predeterminado no aplica la agrupación en clústeres a los datos escritos previamente. Para forzar la reclusterización, use OPTIMIZE FULL o OPTIMIZE FULL WHERE <predicate>. Consulte Forzar reclusterización.

Eliminación de claves de agrupación en clústeres

Para quitar las claves de agrupación en clústeres, use la sintaxis siguiente:

ALTER TABLE table_name CLUSTER BY NONE;

Elección de claves de agrupación en clústeres

Sugerencia

Databricks recomienda usar clústeres líquidos automáticos para tablas admitidas, que selecciona de forma inteligente las claves de agrupación en clústeres en función de los patrones de consulta. Consulte Agrupación automática de líquidos.

Directrices clave de selección

Al especificar manualmente claves de agrupación en clústeres, elija columnas basadas en las columnas que se usan con más frecuencia en los filtros de consulta. Puede definir claves de agrupación en clústeres en cualquier orden. Si dos columnas están muy correlacionadas, solo debe incluir una de ellas como clave de agrupación en clústeres.

Puede especificar hasta cuatro claves de agrupación en clústeres. Para tablas más pequeñas (menos de 10 TB), el uso de más claves de agrupación en clústeres puede degradar el rendimiento al filtrar en una sola columna. Por ejemplo, el filtrado con cuatro claves funciona peor que el filtrado con dos claves. Sin embargo, a medida que aumenta el tamaño de tabla, esta diferencia de rendimiento se convierte en insignificante para las consultas de una sola columna.

Las claves de agrupación en clústeres deben ser columnas que tengan estadísticas recopiladas. De forma predeterminada, las primeras 32 columnas de una tabla Delta tienen estadísticas recopiladas. Consulte Especificar columnas de estadísticas.

Supported data types (Tipos de datos admitidos)

La agrupación en clústeres admite estos tipos de datos para las claves de agrupación en clústeres:

Date
Timestamp
TimestampNTZ (Databricks Runtime 14.3 LTS y versiones posteriores)
String
Entero, Largo, Corto, Byte
Flotante, Doble, Decimal

Migración desde particiones o orden Z

Si va a convertir una tabla existente, tenga en cuenta las siguientes recomendaciones:

Técnica de optimización de datos actual	Recomendación para las claves de agrupación en clústeres
Creación de particiones de estilo hive	Usar columnas de partición como claves de agrupación en clústeres.
Indexación de orden Z	Usar las columnas `ZORDER BY` como claves de agrupación en clústeres.
Creación de particiones de estilo de Hive y orden Z	Usar las columnas de partición y las columnas `ZORDER BY` como claves de agrupación en clústeres.
Columnas generadas para reducir la cardinalidad (por ejemplo, fecha para una marca de tiempo)	Use la columna original como clave de agrupación en clústeres y no cree una columna generada.

Agrupación automática de líquidos

En Databricks Runtime 15.4 LTS y versiones posteriores, puede habilitar la agrupación automática en clústeres líquidos para tablas Delta administradas por el catálogo de Unity. La agrupación automática en clústeres líquidos permite Azure Databricks elegir de forma inteligente claves de agrupación en clústeres para optimizar el rendimiento de las consultas mediante la cláusula CLUSTER BY AUTO.

Funcionamiento automático de la agrupación en clústeres líquidos

La agrupación automática en clústeres líquidos proporciona optimización inteligente en función de los patrones de uso:

Requiere optimización predictiva: las operaciones de selección automática de claves y agrupación en clústeres se ejecutan de forma asincrónica como una operación de mantenimiento. Consulte Optimización predictiva para tablas administradas del catálogo de Unity.
Analyzes query workload: Azure Databricks analiza la carga de trabajo de consulta histórica de la tabla e identifica las mejores columnas candidatas para la agrupación en clústeres.
Se adapta a los cambios: si los patrones de consulta o las distribuciones de datos cambian con el tiempo, la agrupación automática en clústeres líquidos selecciona nuevas claves para optimizar el rendimiento.
Selección compatible con costos: Azure Databricks cambia las claves de agrupación en clústeres solo cuando el ahorro previsto de costos de las mejoras de omisión de datos supera el costo de agrupación en clústeres de datos.

Es posible que la agrupación automática en clústeres líquidos no seleccione claves por los siguientes motivos:

La tabla es demasiado pequeña para beneficiarse de la agrupación en clústeres líquidos.
La tabla ya tiene un esquema de agrupación en clústeres eficaz, ya sea de claves manuales anteriores o de un orden de inserción natural que coincida con los patrones de consulta.
La tabla no tiene consultas frecuentes.
No está utilizando Databricks Runtime 15.4 LTS o superior.

Puede aplicar clústeres líquidos automáticos para todas las tablas administradas del Catálogo de Unity, independientemente de los datos y las características de consulta. La heurística decide si es rentable seleccionar claves de agrupación en clústeres.

Compatibilidad de la versión de Databricks Runtime

Puede leer o escribir tablas con la agrupación en clústeres automática habilitada desde todas las versiones de Databricks Runtime que admiten la agrupación en clústeres líquidos. Sin embargo, la selección inteligente de claves se basa en los metadatos introducidos en Databricks Runtime 15.4 LTS.

Use Databricks Runtime 15.4 LTS o versiones posteriores para asegurarse de que las claves seleccionadas automáticamente benefician a todas las cargas de trabajo y que estas cargas de trabajo se consideran al seleccionar nuevas claves.

Habilitación o desactivación de la agrupación automática en clústeres líquidos

Para habilitar o desactivar la agrupación automática en clústeres líquidos en una tabla nueva o existente, use la sintaxis siguiente:

SQL

-- Create an empty table.
CREATE OR REPLACE TABLE table1(column01 int, column02 string) CLUSTER BY AUTO;

-- Enable automatic liquid clustering on an existing table,
-- including tables that previously had manually specified keys.
ALTER TABLE table1 CLUSTER BY AUTO;

-- Disable automatic liquid clustering on an existing table.
ALTER TABLE table1 CLUSTER BY NONE;

-- Disable automatic liquid clustering by setting the clustering keys
-- to chosen clustering columns or new columns.
ALTER TABLE table1 CLUSTER BY (column01, column02);

Si se ejecuta CREATE OR REPLACE table_name sin especificar CLUSTER BY AUTO y la tabla ya existe y tiene habilitada la agrupación en clústeres líquidos automática, la AUTO configuración está deshabilitada y las columnas de agrupación en clústeres no se conservan. Para conservar la agrupación automática en clústeres líquidos y las columnas de agrupación en clústeres seleccionadas anteriormente, incluya CLUSTER BY AUTO en la instrucción replace. Cuando se conserva, la optimización predictiva mantiene la carga de trabajo de consulta histórica de la tabla para identificar las mejores claves de agrupación en clústeres.

Python

df = spark.read.table("table1")
df.write
  .format("delta")
  .option("clusterByAuto", "true")
  .saveAsTable(...)

# Set clustering columns and auto to provide a hint for initial selection
df.write
  .format("delta")
  .clusterBy("clusteringColumn1", "clusteringColumn2")
  .option("clusterByAuto", "true")
  .saveAsTable(...)

# Using DataFrameWriterV2
df.writeTo(...).using("delta")
  .option("clusterByAuto", "true")
  .create()

# Set clustering columns and auto to provide a hint for initial selection
df.writeTo(...).using("delta")
  .clusterBy("clusteringColumn1", "clusteringColumn2")
  .option("clusterByAuto", "true")
  .create()

# Set clusterByAuto for streaming tables
spark.readStream.table("source_table")
  .writeStream
  .option("clusterByAuto", "true")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")

# Specify a hint for clustering columns with both auto and columns
spark.readStream.table("source_table")
  .writeStream
 .clusterBy("column1", "column2")
  .option("clusterByAuto", "true")
  .option("checkpointLocation", checkpointPath)
  .toTable("target_table")

La API de Python está disponible en Databricks Runtime 16.4 y versiones posteriores. Cuando se usa .clusterBy junto con .option('clusterByAuto', 'true), el comportamiento es el siguiente:

Si esto establece la agrupación automática de líquidos por primera vez, siempre se respeta la entrada manual y se configuran las columnas de agrupación en .clusterBy.
Si esto ya es una tabla con clústeres líquidos automáticos, se puede aceptar una sugerencia mediante .clusterBy una vez. Por ejemplo, las columnas especificadas por .clusterBy solo se establecen si la tabla no tiene ninguna columna de agrupación en clústeres establecida ya.

Solo puede usar Python al crear o reemplazar una tabla. Use SQL para cambiar el clusterByAuto estado de una tabla existente.

Important

Al usar las API de DataFrame, la opción clusterByAuto solo se puede establecer al usar el modo overwrite. No se puede establecer clusterByAuto al usar el modo append. Esta restricción es la misma que al establecer las columnas de agrupamiento manualmente: las configuraciones de agrupamiento solo se pueden configurar en la creación o reemplazo de tablas mediante el modo overwrite.

Como solución alternativa, si desea cambiar el clusterByAuto estado de una tabla existente al anexar datos, use comandos SQL ALTER TABLE para modificar la configuración de agrupación en clústeres por separado de las operaciones de escritura de datos.

Comprobación de si la agrupación automática en clústeres está habilitada

Para comprobar si una tabla tiene habilitada la agrupación en clústeres líquidos automática, use DESCRIBE TABLE o SHOW TBLPROPERTIES.

Si la agrupación automática de líquidos está habilitada, la propiedad clusterByAuto se establece a true. La clusteringColumns propiedad muestra las columnas de agrupación en clústeres actuales que se seleccionaron automáticamente o manualmente.

Limitations

La agrupación líquida automática no está disponible para Apache Iceberg.

Escritura de datos en una tabla agrupada

Para escribir en una tabla delta agrupada, debe usar un cliente de escritura delta que admita todas las características de tabla de protocolo de escritura delta usadas por la agrupación en clústeres líquidos. Para escribir en una tabla Iceberg agrupada, puede usar la API REST de catálogo Iceberg de Unity Catalog. En Azure Databricks, debe usar Databricks Runtime 13.3 LTS y versiones posteriores.

Operaciones que admiten la agrupación en clústeres en escritura

Entre las operaciones que realizan agrupación en clústeres en la escritura se incluyen las siguientes:

operaciones de INSERT INTO
Instrucciones CTAS y RTAS
COPY INTO del formato Parquet
spark.write.mode("append")

Umbrales de tamaño para la agrupación en clústeres

La agrupación en clústeres durante la escritura solo se desencadena cuando los datos de la transacción cumplen un umbral de tamaño. Estos umbrales varían según el número de columnas de agrupación en clústeres y son inferiores para las tablas administradas de Unity Catalog que otras tablas Delta.

Número de columnas de agrupación en clústeres	Tamaño del umbral para las tablas administradas de Unity Catalog	Tamaño del umbral para otras tablas Delta
1	64 MB	256 MB
2	256 MB	1 GB
3	512 MB	2 GB
4	1 GB	4 GB

Dado que no todas las operaciones se aplican a la agrupación en clústeres líquidos, Databricks recomienda ejecutar con frecuencia OPTIMIZE para asegurarse de que todos los datos se agrupen de forma eficaz.

Cargas de trabajo de transmisión

Las cargas de trabajo de Structured Streaming admiten la agrupación en clústeres en escritura al establecer la configuración de Spark en spark.databricks.delta.liquid.eagerClustering.streaming.enabledtrue. La agrupación en clústeres para estas cargas de trabajo solo se desencadena si al menos una de las cinco últimas actualizaciones de streaming supera un umbral de tamaño de la tabla anterior.

Cómo desencadenar la agrupación en clústeres

La optimización predictiva ejecuta automáticamente comandos OPTIMIZE para las tablas habilitadas. Consulte Optimización predictiva para tablas administradas del catálogo de Unity. Al usar la optimización predictiva, Databricks recomienda deshabilitar los trabajos programados OPTIMIZE .

Para desencadenar la agrupación en clústeres, se deben usar Databricks Runtime 13.3 LTS o cualquier versión superior. Databricks recomienda Databricks Runtime 17.2 y versiones posteriores para un rendimiento más rápido OPTIMIZE en tablas grandes. Usa el OPTIMIZE comando en tu tabla:

OPTIMIZE table_name;

La agrupación en clústeres líquidos es incremental, lo que significa que OPTIMIZE solo vuelve a escribir los datos según sea necesario para dar cabida a los datos que necesitan agrupación en clústeres. OPTIMIZE no vuelve a escribir archivos de datos con claves de agrupación en clústeres que no coinciden con los datos agrupados. Consulte Forzar reclusterización.

Si no usa la optimización predictiva, Databricks recomienda programar trabajos regulares para agrupar datos. En el caso de tablas que experimentan muchas actualizaciones o inserciones, Databricks recomienda programar un trabajo OPTIMIZE cada una o dos horas. Dado que la agrupación en clústeres líquidos es incremental, la mayoría de los trabajos OPTIMIZE de las tablas agrupadas se ejecutan rápidamente.

Reclusterización forzada

En Databricks Runtime 16.0 y versiones posteriores, puede forzar la reclusión de todos los registros de una tabla con la sintaxis siguiente:

OPTIMIZE table_name FULL;

Important

La ejecución de OPTIMIZE FULL vuelve a agrupar todos los datos existentes según sea necesario. En el caso de las tablas grandes que no se han agrupado previamente en las claves especificadas, esta operación puede tardar horas.

Ejecute OPTIMIZE FULL al habilitar la agrupación en clústeres por primera vez o cambie las claves de agrupación en clústeres. Si ha ejecutado previamente OPTIMIZE FULL y no ha habido ningún cambio en las claves de agrupación en clústeres, OPTIMIZE FULL ejecuta lo mismo que OPTIMIZE. En este escenario, OPTIMIZE usa un enfoque incremental y solo vuelve a escribir los archivos que no se han compactado anteriormente. Use siempre OPTIMIZE FULL para asegurarse de que el diseño de datos refleje las claves de agrupación en clústeres actuales.

Reagrupación parcial

En Databricks Runtime 18.1 y versiones posteriores, puede forzar la reagrupación para un subconjunto de registros mediante OPTIMIZE FULL WHERE <predicate>. Se incluye un fichero si cualquier parte de su rango se superpone con el predicado. Consulte Parámetros.

OPTIMIZE events FULL WHERE event_date >= '2025-01-01';

Lectura de los datos de una tabla agrupada

Puede leer datos en una tabla delta agrupada mediante cualquier cliente de Delta Lake que admita la lectura de vectores de eliminación. Con la API de Catálogo REST de Iceberg, puede leer datos en una tabla Iceberg agrupada. La agrupación en clústeres líquidos mejora el rendimiento de las consultas mediante la omisión automática de datos al filtrar las claves de agrupación en clústeres.

SELECT * FROM table_name WHERE cluster_key_column_name = "some_value";

Administración de claves de agrupación en clústeres

Vea cómo se agrupa una tabla

Puede usar comandos DESCRIBE para ver las claves de agrupación en clústeres de una tabla, como en los ejemplos siguientes:

DESCRIBE TABLE table_name;

DESCRIBE DETAIL table_name;

Cambio de las claves de agrupación en clústeres

Puede cambiar las claves de agrupación en clústeres de una tabla en cualquier momento ejecutando un comando ALTER TABLE, como en el ejemplo siguiente:

ALTER TABLE table_name CLUSTER BY (new_column1, new_column2);

Al cambiar las claves de agrupación en clústeres, las operaciones OPTIMIZE y de escritura subsiguientes usan el nuevo enfoque de agrupación en clústeres, pero no se reescriben los datos existentes. Para volver a escribir los datos existentes con las claves de agrupación en clústeres actualizadas, consulte Forzar la agrupación.

También puede desactivar la agrupación en clústeres estableciendo las claves en NONE, como en el ejemplo siguiente:

ALTER TABLE table_name CLUSTER BY NONE;

Establecer las claves de clúster en NONE no reescribe los datos agrupados, pero impide que las operaciones futuras OPTIMIZE utilicen claves de clúster.

Uso de clústeres líquidos desde un motor externo

Puede habilitar la agrupación líquida en tablas Iceberg gestionadas desde motores Iceberg externos. Para habilitar la agrupación en clústeres líquidos, especifique las columnas de partición al crear una tabla. Unity Catalog interpreta las particiones como claves de agrupación en clústeres. Por ejemplo, ejecute el comando siguiente en Spark de OSS:

CREATE OR REPLACE TABLE main.schema.icebergTable
PARTITIONED BY c1;

Para desactivar la agrupación en clústeres líquidos:

ALTER TABLE main.schema.icebergTable DROP PARTITION FIELD c2;

Para cambiar las claves de agrupación mediante la evolución de particiones de Iceberg:

ALTER TABLE main.schema.icebergTable ADD PARTITION FIELD c2;

Si especifica una partición mediante una transformación de bucket, el Catálogo de Unity quita la expresión y usa la columna como clave de agrupamiento.

CREATE OR REPLACE TABLE main.schema.icebergTable
PARTITIONED BY (bucket(c1, 10));

Compatibilidad con tablas con agrupación en clústeres líquidos

La agrupación en clústeres líquidos usa características de tabla de Delta Lake que requieren versiones específicas de Databricks Runtime para leer y escribir. Las tablas creadas con clústeres líquidos en Databricks Runtime 14.1 y versiones posteriores usan el punto de control V2 de forma predeterminada. Puede leer y escribir tablas con punto de control V2 en Databricks Runtime 13.3 LTS y versiones posteriores. Consulte Punto de comprobación V2.

Para dar soporte a los lectores que usan Databricks Runtime de 12.2 LTS a 13.2, deshabilite el punto de control V2 y cambie el protocolo de tabla. Consulte Degradación a clásico.

Invalidar la habilitación de características predeterminada (opcional)

Puede anular la activación predeterminada de las funciones de la tabla Delta durante el agrupamiento por clústeres líquidos. Esto evita las actualizaciones de los protocolos lector y escritor asociados a esas características de tabla. Debe tener una tabla existente para completar los pasos siguientes:

Use ALTER TABLE para establecer la propiedad table que deshabilita una o varias características. Por ejemplo, para deshabilitar los vectores de eliminación, ejecute lo siguiente:
```
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = false);
```
Para habilitar la agrupación en clústeres líquidos en la tabla, ejecute lo siguiente:
```
ALTER TABLE <table_name>
CLUSTER BY (<clustering_columns>)
```

En la tabla siguiente se proporciona información sobre las características delta que puede invalidar y cómo afecta la habilitación a la compatibilidad con las versiones de Databricks Runtime.

Característica delta	Compatibilidad en tiempo de ejecución	Propiedad para invalidar la habilitación	Impacto en los clústeres líquidos si está desactivado
Vectores de eliminación	Las lecturas y escrituras requieren Databricks Runtime 12.2 LTS y versiones posteriores.	`'delta.enableDeletionVectors' = false`	Deshabilitar los vectores de eliminación deshabilita la simultaneidad de nivel de fila, lo que hace que las transacciones y las operaciones de agrupación en clústeres tengan más probabilidades de entrar en conflicto. Vea Concurrencia a nivel de fila. `DELETE`, comandos `MERGE`, y `UPDATE` pueden ejecutarse más lentamente.
Seguimiento de filas	Las escrituras necesitan Databricks Runtime 13.3 LTS y versiones posteriores. Se puede leer desde cualquier versión de Databricks Runtime.	`'delta.enableRowTracking' = false`	Deshabilitar el seguimiento de filas deshabilita la simultaneidad de nivel de fila, lo que hace que las transacciones y las operaciones de agrupación en clústeres tengan más probabilidades de entrar en conflicto. Vea Concurrencia a nivel de fila.
Punto de control V2	Las lecturas y escrituras requieren Databricks Runtime 13.3 LTS y versiones posteriores.	`'delta.checkpointPolicy' = 'classic'`	No afecta al comportamiento de la agrupación en clústeres líquidos. Consulte Punto de comprobación V2.

Limitations

Databricks Runtime 15.1 y anteriores: La agrupación en clústeres en escritura no admite consultas de origen que incluyan filtros, uniones o agregaciones.
Databricks Runtime 15.4 LTS y versiones anteriores: no se puede crear una tabla con agrupamiento líquido habilitada mediante una escritura de Structured Streaming. Puede usar Structured Streaming para escribir datos en una tabla existente con la agrupación en clústeres líquidos habilitada.
Apache Iceberg v2: la simultaneidad a nivel de fila no se admite en tablas administradas de Apache Iceberg con Apache Iceberg v2, ya que los vectores de eliminación y el seguimiento de filas no se admiten en las tablas de Apache Iceberg.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-24

Utilizar agrupación líquida para tablas

Cuándo usar clústeres líquidos

Habilitación de la agrupación en clústeres líquidos

Creación de tablas con agrupación en clústeres

SQL

Python

Scala

SQL

Python

Scala

Habilitar en tablas existentes

Eliminación de claves de agrupación en clústeres

Elección de claves de agrupación en clústeres

Directrices clave de selección

Supported data types (Tipos de datos admitidos)

Migración desde particiones o orden Z

Agrupación automática de líquidos

Funcionamiento automático de la agrupación en clústeres líquidos

Compatibilidad de la versión de Databricks Runtime

Habilitación o desactivación de la agrupación automática en clústeres líquidos

SQL

Python

Comprobación de si la agrupación automática en clústeres está habilitada

Limitations

Escritura de datos en una tabla agrupada

Operaciones que admiten la agrupación en clústeres en escritura

Umbrales de tamaño para la agrupación en clústeres

Cargas de trabajo de transmisión

Cómo desencadenar la agrupación en clústeres

Reclusterización forzada

Reagrupación parcial

Lectura de los datos de una tabla agrupada

Administración de claves de agrupación en clústeres

Vea cómo se agrupa una tabla

Cambio de las claves de agrupación en clústeres

Uso de clústeres líquidos desde un motor externo

Compatibilidad con tablas con agrupación en clústeres líquidos

Invalidar la habilitación de características predeterminada (opcional)

Limitations

Comentarios

Recursos adicionales