Tamanho da tabela no Azure Databricks

O tamanho da tabela relatado para tabelas do Azure Databricks difere do tamanho total dos diretórios de arquivos correspondentes no armazenamento de objetos de nuvem. Esta página discute por que essa diferença existe e recomendações para controlar os custos.

Por que o tamanho da tabela não corresponde ao tamanho do diretório?

Os tamanhos de tabela relatados no Azure Databricks através de UIs e comandos DESCRIBE referem-se ao tamanho total dos arquivos de dados armazenados em disco para os arquivos referenciados na versão atual da tabela. A maioria das operações que gravam em tabelas requer a regravação dos arquivos de dados subjacentes, mas os arquivos de dados antigos são mantidos por um período de tempo para dar suporte a consultas de viagem no tempo.

Observação

Se você exclui ou atualiza regularmente registros em tabelas, os vetores de exclusão podem acelerar consultas e reduzir o tamanho total dos arquivos de dados. Consulte vetores de exclusão no Databricks.

Calcular as métricas de armazenamento para uma tabela

Aplica-se a: marcado como sim Databricks Runtime 18.0 e versões superiores

Para entender por que o tamanho total do armazenamento é diferente do tamanho da tabela, use ANALYZE TABLE … COMPUTE STORAGE METRICS. Este comando fornece uma divisão detalhada da alocação de armazenamento, ajudando você a:

Identificar oportunidades de otimização de custo: veja a quantidade de armazenamento que pode ser recuperada com VACUUM
Analisar a sobrecarga de viagem no tempo: entenda o custo de retenção de dados históricos
Acompanhamento de padrões de armazenamento: Monitorar como o armazenamento de tabela evolui ao longo do tempo executando o comando periodicamente
Auditar o armazenamento entre tabelas: execute o comando em um loop para analisar todo o seu patrimônio de dados

O comando retorna métricas abrangentes, incluindo:

Tamanho total do armazenamento: volume completo, incluindo todos os dados, metadados e logs
Dados ativos: tamanho da versão da tabela atual
Dados passíveis de descarte: espaço que pode ser recuperado
Dados de viagem no tempo: dados históricos para reversões

Isso é particularmente valioso para tabelas gerenciadas do Catálogo do Unity em que o Azure Databricks gerencia automaticamente o armazenamento por meio da otimização preditiva.

Veja ... MÉTRICAS DE ARMAZENAMENTO DE COMPUTAÇÃO para a sintaxe completa e os exemplos.

Usar a otimização preditiva para controlar o tamanho dos dados

O Databricks recomenda usar tabelas gerenciadas do Catálogo do Unity com otimização preditiva habilitada. Com tabelas gerenciadas e otimização preditiva, o Databricks executa OPTIMIZE e VACUUM comanda automaticamente para impedir o acúmulo de arquivos de dados não utilizados. Espere sempre haver uma diferença de tamanho entre a versão atual de uma tabela e o tamanho total dos arquivos de dados no armazenamento de objetos na nuvem. Isso ocorre porque os arquivos de dados não referenciados na versão atual são necessários para dar suporte a consultas de viagem no tempo. Consulte Otimização preditiva para tabelas gerenciadas do Catálogo do Unity.

Quais métricas de arquivo `VACUUM` relata?

Ao limpar arquivos de dados não utilizados com VACUUM ou ao usar DRY RUN para visualizar os arquivos definidos para remoção, as métricas relatam o número de arquivos e o tamanho dos dados removidos. O tamanho e o número de arquivos removidos por VACUUM varia drasticamente, mas não é incomum que o tamanho dos arquivos removidos exceda o tamanho total da versão atual da tabela.

Quais métricas de arquivo `OPTIMIZE` reporta?

Quando OPTIMIZE é executado em uma tabela de destino, novos arquivos de dados combinam registros de arquivos de dados existentes. As alterações realizadas durante OPTIMIZE apenas afetam a organização dos dados, sem alterar o conteúdo dos dados subjacentes. O tamanho total dos arquivos de dados associados à tabela aumenta após a execução de OPTIMIZE, porque os novos arquivos compactados coexistem no diretório contendo os arquivos de dados não mais referenciados.

O tamanho da tabela relatado após a execução de OPTIMIZE geralmente é menor do que o tamanho antes de OPTIMIZE ser executado, porque o tamanho total dos arquivos de dados referenciados pela versão atual da tabela diminui com a compactação dos dados. VACUUM deve ser executado após o período de retenção ter expirado para remover os arquivos de dados subjacentes.

Observação

Você pode ver métricas semelhantes para operações como REORG TABLE ou DROP FEATURE. Todas as operações que exigem a regravação de arquivos de dados aumentam o tamanho total dos dados no diretório contendo até que VACUUM remova os arquivos de dados que não estão mais referenciados na versão atual da tabela.

Comentários

Esta página foi útil?

Last updated on 2026-02-12