Cláusula CLUSTER BY (TABLE)

se aplica a:casilla marcada como sí Databricks SQL casilla marcada como Sí Databricks Runtime 13.3 LTS y versiones posteriores solo casilla marcada como Sí Delta Lake

Define la agrupación en clústeres multidimensionales líquidos para una tabla de Delta Lake.

Puede usar esta cláusula cuando:

  • Cree una tabla con CREATE TABLE.
  • Modifique una tabla con ALTER TABLE para cambiar las columnas de agrupación en clústeres. Para agrupar filas de clúster con columnas de agrupación en clústeres modificadas, debe ejecutar OPTIMIZE. Tenga en cuenta que las filas agrupadas por columnas de agrupación en clústeres anteriores no se ven afectadas.

Las filas actualizadas no se vuelven a agrupar automáticamente. Ejecute OPTIMIZE para volver a agrupar filas actualizadas.

Para obtener más información sobre la agrupación en clústeres líquidos, consulte Uso de clústeres líquidos para tablas Delta

Sintaxis

CLUSTER BY { ( column_name [, ...] ] ) |
             NONE }

Parámetros

  • column_name

    Especifica las columnas de la tabla por la que se agrupan los datos. El orden de columna no importa. Para beneficiarse de la modificación de la agrupación en clústeres, debe ejecutar OPTIMIZE.

  • NONE

    Desactiva la agrupación en clústeres de la tabla que se está modificando. Los datos recién insertados o actualizados no se agruparán en clústeres OPTIMIZE. Para no usar la agrupación en clústeres al crear una tabla, omita la cláusula CLUSTER BY.

Ejemplos

Puede encontrar más ejemplos en Uso de clústeres líquidos para tablas Delta.

-- Create a table with a clustering column
> CREATE TABLE t(a int, b string) USING delta CLUSTER BY (a);

-- The clustering of an existing Delta table to add a second dimension
> ALTER TABLE t CLUSTER BY (a, b);

-- Recluster the table
> OPTIMIZE t;

-- Remove the clustering
> ALTER TABLE t CLUSTER BY NONE;