Compatibilidad de intercalación con Delta Lake

Puede especificar reglas de intercalación en campos de texto en tablas Delta para controlar cómo se comportan las comparaciones y la ordenación de cadenas, como habilitar la coincidencia sin distinción de mayúsculas/minúsculas o la ordenación sensible al contexto regional. Esto requiere Databricks Runtime 16.4 LTS y versiones posteriores.

Para obtener una explicación completa de los tipos de intercalación, las convenciones de nomenclatura y las reglas de precedencia, consulte Intercalación.

De forma predeterminada, Delta Lake establece la intercalación de los campos de cadena en UTF8_BINARY.

Important

Al habilitar la intercalación, se agrega la función de tabla de escritura collations a tu tabla Delta, lo que afecta la compatibilidad con lectores externos y otras características de la plataforma. Revise la sección Limitaciones antes de habilitar la intercalación en tablas de producción.

Creación de una tabla con intercalación

Puede especificar la intercalación a nivel de columna al crear una nueva tabla. La intercalación se puede aplicar a columnas de texto de nivel superior y campos de texto dentro de tipos anidados.

CREATE TABLE catalog.schema.my_table (
  id BIGINT,
  name STRING COLLATE UTF8_LCASE,
  metadata STRUCT<label: STRING COLLATE UNICODE>,
  tags ARRAY<STRING COLLATE UTF8_LCASE>,
  properties MAP<STRING, STRING COLLATE UTF8_LCASE>
) USING delta

Nota:

MAP Las claves no pueden usar la intercalación. Solo los valores MAP admiten cadenas intercaladas.

Modificar intercalación en una columna existente

Puede cambiar la intercalación de una columna existente mediante ALTER TABLE:

-- Set a column to case-insensitive collation
ALTER TABLE my_table ALTER COLUMN name TYPE STRING COLLATE UTF8_LCASE

-- Revert a column to the default binary collation
ALTER TABLE my_table ALTER COLUMN name TYPE STRING COLLATE UTF8_BINARY

Actualizar estadísticas y estructura de datos después de modificar la intercalación

Cambiar la intercalación de una columna no reescribe datos existentes ni actualiza estadísticas. Las consultas devuelven resultados correctos en la nueva intercalación inmediatamente, pero la omisión de archivos y la agrupación en clústeres podrían ser menos eficaces hasta que realice los pasos siguientes:

Actualice las estadísticas de omisión de archivos para la columna:

   ANALYZE TABLE my_table COMPUTE DELTA STATISTICS

Si la tabla usa clústeres líquidos, vuelva a escribir el diseño de agrupación en clústeres:

   OPTIMIZE FULL my_table

Si la tabla usa ZORDER, deshabilite la optimización incremental y vuelva a escribir todos los archivos:

   SET spark.databricks.optimize.incremental = false;
   OPTIMIZE my_table ZORDER BY zorder_column;

Omitir estos pasos no provocará resultados incorrectos, pero puede reducir el rendimiento de las consultas en los datos históricos hasta la siguiente reescritura completa.

La intercalación siempre es respetada por Azure Databricks en los resultados de la consulta.

Deshabilitar la ordenación de una tabla

Para quitar la característica de tabla de intercalación, establezca primero cada columna intercalada en UTF8_BINARY:

-- Repeat for each collated column
ALTER TABLE my_table ALTER COLUMN name TYPE STRING COLLATE UTF8_BINARY

A continuación, elimine la característica de tabla.

ALTER TABLE my_table DROP FEATURE collations

Consulte Eliminar una característica de la tabla Delta Lake y bajar de versión el protocolo de la tabla para obtener más información.

Evolución y clasificación de esquemas

Cuando la evolución del esquema agrega o combina columnas que tienen la intercalación especificada, se aplican las siguientes reglas:

Si ya existe una columna de origen en la tabla de destino, se conserva la intercalación de la tabla de destino para esa columna. Se omite la intercalación de la columna de origen.
Si una columna de origen es nueva y tiene una intercalación especificada, la tabla de destino adopta esa intercalación para la nueva columna.
Si la tabla de destino aún no tiene habilitada la collations característica de tabla, agregar una columna intercalada la habilita automáticamente.

Limitaciones

Las limitaciones siguientes se aplican a las tablas Delta con la intercalación habilitada:

Compatibilidad e interoperabilidad:

Los lectores externos que no reconocen la función de tabla collations vuelven a UTF8_BINARY, lo que podría producir órdenes de clasificación o comparaciones incorrectas.
Delta Sharing no admite el uso compartido de particiones individuales en columnas de intercalación no predeterminadas. Comparta la tabla en su lugar.
UniForm no es compatible con tablas que tengan intercalación.
Las tablas delta creadas externamente con una intercalación no reconocida por Databricks Runtime generan una excepción cuando se consultan.
Las API de Delta Lake de OSS para Scala o Python no admiten la intercalación. Utilice las API de Spark SQL o de DataFrame.

Restricciones de consulta y características:

En las restricciones CHECK, no se pueden usar columnas intercaladas
No se puede hacer referencia a columnas intercaladas en expresiones de columna generadas
Las columnas ordenadas no se pueden usar con índices de filtros de Bloom (obsoletos)
No se puede hacer referencia a las columnas intercaladas en consultas con estado de Structured Streaming (agregaciones, combinaciones, desduplicación)
Una MAP clave no puede ser una cadena intercalada. Solo MAP valores admiten la intercalación

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-11