Treinamento
Módulo
Otimizar o desempenho com o Spark e o Delta Live Tables - Training
Otimize o desempenho com Spark e Delta Live Tables no Azure Databricks.
Não há mais suporte para esse navegador.
Atualize o Microsoft Edge para aproveitar os recursos, o suporte técnico e as atualizações de segurança mais recentes.
Aplica-se a: SQL do Databricks
Runtime do Databricks
Otimiza o layout dos dados do Delta Lake. Opcionalmente, otimize um subconjunto de dados ou coloque os dados por coluna. Se você não especificar a colocação e a tabela não for definida com clustering líquido, a otimização de empacotamento em compartimento será executada.
OPTIMIZE table_name [FULL] [WHERE predicate]
[ZORDER BY (col_name1 [, ...] ) ]
Observação
Observação
Ao usar o Databricks Runtime, para controlar o tamanho do arquivo de saída, defina a Configuração do Sparkspark.databricks.delta.optimize.maxFileSize
. O valor padrão é 1073741824
, que define o tamanho como 1 GB. A especificação do valor 104857600
define o tamanho do arquivo como 100 MB.
Identifica uma tabela do Delta existente. O nome não deve incluir uma especificação temporal ou especificação de opções.
FULL
Aplica-se a: Databricks Runtime 16.0 e posterior
Otimize toda a tabela, incluindo dados que podem ter sido agrupados anteriormente. Essa cláusula só pode ser especificada para tabelas que usam clustering líquido.
WHERE
Otimize o subconjunto de linhas correspondente ao predicado de partição determinado. Há suporte apenas para filtros que envolvam atributos de chave de partição.
Você não pode usar essa cláusula em tabelas que usam clustering líquido.
ZORDER BY
Colocar as informações da coluna no mesmo conjunto de arquivos.
A colocalidade é usada por algoritmos que ignoram dados do Delta Lake a fim de reduzir significativamente o volume de dados que precisam ser lidos.
Você pode especificar várias colunas para ZORDER BY
como lista separada por vírgulas.
No entanto, a eficácia da localidade diminui a cada coluna adicional.
Você não pode usar essa cláusula em tabelas que usam clustering líquido.
> OPTIMIZE events;
> OPTIMZIE events FULL;
> OPTIMIZE events WHERE date >= '2017-01-01';
> OPTIMIZE events
WHERE date >= current_timestamp() - INTERVAL 1 day
ZORDER BY (eventType);
Para obter mais informações sobre o comando OPTIMIZE
, confira Otimizar o layout do arquivo de dados.
Treinamento
Módulo
Otimizar o desempenho com o Spark e o Delta Live Tables - Training
Otimize o desempenho com Spark e Delta Live Tables no Azure Databricks.