OPTIMIZE

Aplica-se a: marca de seleção positiva SQL do Databricks Runtime do Databricks

Esta página descreve o OPTIMIZE comando, que otimiza o layout dos dados do Delta Lake. Você pode otimizar um subconjunto de dados ou agrupar dados por coluna. Se você não especificar a ordenação e a tabela não usar clustering líquido, o Delta Lake executará a otimização de empacotamento de compartimentos.

Sintaxe

OPTIMIZE table_name [FULL] [WHERE predicate]
  [ZORDER BY (col_name1 [, ...] ) ]

Observação

A otimização de empacotamento de compartimentos é idempotente: se você executá-la duas vezes no mesmo conjunto de dados, a segunda execução não terá efeito. Ele produz arquivos de dados uniformemente equilibrados em relação ao seu tamanho em disco, mas não necessariamente o número de tuplas por arquivo. As duas medidas são correlacionadas com mais frequência.

O Z-Ordering não é idempotente, mas opera de forma incremental. O tempo que o Z-Ordering leva não é garantido para diminuir ao longo de várias execuções. No entanto, se nenhum novo dado foi adicionado a uma partição que era apenas Z-Ordered, executar o Z-Ordering novamente nessa partição não terá efeito. O Z-Ordering produz arquivos de dados equilibrados em relação ao número de tuplas, mas não necessariamente ao tamanho dos dados no disco. As duas medidas são correlacionadas com mais frequência, mas a distorção nos tempos de tarefa de otimização pode ocorrer quando elas divergem.

Observação

Ao usar o Databricks Runtime, para controlar o tamanho do arquivo de saída, defina a configuraçãospark.databricks.delta.optimize.maxFileSize do Spark. O valor padrão é 1073741824 (1 GB). Especificar 104857600 define o tamanho do arquivo como 100 MB.

Parâmetros

table_name

Identifica uma tabela do Delta existente. O nome não deve incluir uma especificação temporal ou especificação de opções.
FULL

Aplica-se a: Databricks Runtime 16.0 e superior

Reescreve todos os arquivos de dados na tabela. Use OPTIMIZE table_name FULL para:
- Otimize toda a tabela, incluindo dados que foram clusterizados anteriormente (para tabelas que usam clustering líquido).
- Recompacte os arquivos de dados existentes ao alterar o codec de compactação da tabela usando a propriedade delta.parquet.compression.codec.
Para recompactar os dados existentes depois de alterar o codec de compactação, execute OPTIMIZE table_name FULL:
```
-- Change compression codec
ALTER TABLE table_name SET TBLPROPERTIES ('delta.parquet.compression.codec' = 'ZSTD');

-- Recompress all existing data files
OPTIMIZE table_name FULL;
```
Para otimizar um subconjunto de arquivos em uma tabela com clustering líquido habilitado, combine FULL com um WHERE predicado (Databricks Runtime 18.1 e superior). Há suporte apenas para predicados de intervalo simples em uma única coluna de clustering. Um arquivo será incluído se qualquer parte de seu intervalo se sobrepor ao predicado. Por exemplo, OPTIMIZE events FULL WHERE date > 15 inclui um arquivo com intervalo (col_min = 10, col_max = 20) porque o intervalo do arquivo se sobrepõe ao predicado.
WHERE

Otimiza o subconjunto de linhas que correspondem a um predicado de partição/clustering. Há suporte apenas para filtros em atributos de chave de partição/clustering.

Para tabelas que usam clustering líquido, use OPTIMIZE table_name FULL WHERE predicate (Databricks Runtime 18.1 e superior) em vez disso.
ZORDER BY

Observação

O Databricks recomenda o clustering líquido para todas as novas tabelas em vez de ordenação Z. Consulte Usar clustering líquido para tabelas.

Agrupa informações de coluna no mesmo conjunto de arquivos. Algoritmos que ignoram dados do Delta Lake usam a co-localidade para reduzir a quantidade de dados que precisam ser lidos. Você pode especificar várias colunas como uma lista separada por vírgulas, mas a eficácia da co-localidade diminui com cada coluna adicional.

Você não pode usar essa cláusula em tabelas que usam clustering líquido.

Exemplos

> OPTIMIZE events;

> OPTIMIZE events FULL;

> -- Partitioned table
> OPTIMIZE events WHERE date >= '2017-01-01';

> -- Table with liquid clustering enabled (DBR 18.1 and above)
> OPTIMIZE events FULL WHERE date >= '2025-01-01';

> OPTIMIZE events
    WHERE date >= current_timestamp() - INTERVAL 1 day
    ZORDER BY (eventType);

Para obter mais informações, consulte Otimizar o layout do arquivo de dados.

Comentários

Esta página foi útil?

Last updated on 2026-04-24