Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O tamanho da tabela relatado para tabelas suportadas pelo Delta Lake no Azure Databricks difere do tamanho total dos diretórios de arquivos correspondentes no armazenamento de objetos na nuvem. Este artigo discute por que essa diferença existe e oferece recomendações para controlar os custos.
Por que o tamanho da tabela Delta não corresponde ao tamanho do diretório?
Os tamanhos de tabela relatados no Azure Databricks por meio de interfaces do usuário e comandos DESCRIBE referem-se ao tamanho total dos arquivos de dados no disco para os arquivos referenciados na versão atual da tabela Delta. A maioria das operações que gravam em tabelas requer a regravação dos arquivos de dados subjacentes, mas os arquivos de dados antigos são mantidos por um período de tempo para dar suporte a consultas de viagem no tempo.
Observação
Se você exclui ou atualiza regularmente registros em tabelas, os vetores de exclusão podem acelerar consultas e reduzir o tamanho total dos arquivos de dados. Confira O que são vetores de exclusão?
Calcular as métricas de armazenamento para uma tabela
Aplica-se a:
Databricks Runtime 18.0 e versões superiores
Para entender por que o tamanho total do armazenamento é diferente do tamanho da tabela, use ANALYZE TABLE … COMPUTE STORAGE METRICS. Este comando fornece uma divisão detalhada da alocação de armazenamento, ajudando você a:
-
Identificar oportunidades de otimização de custo: veja a quantidade de armazenamento que pode ser recuperada com
VACUUM - Analisar a sobrecarga de viagem no tempo: entenda o custo de retenção de dados históricos
- Acompanhamento de padrões de armazenamento: Monitorar como o armazenamento de tabela evolui ao longo do tempo executando o comando periodicamente
- Auditar o armazenamento entre tabelas: execute o comando em um loop para analisar todo o seu patrimônio de dados
O comando retorna métricas abrangentes, incluindo:
- Tamanho total do armazenamento: volume completo, incluindo todos os dados, metadados e logs
- Dados ativos: tamanho da versão da tabela atual
- Dados passíveis de descarte: espaço que pode ser recuperado
- Dados de viagem no tempo: dados históricos para reversões
Isso é particularmente valioso para tabelas gerenciadas do Catálogo do Unity em que o Azure Databricks gerencia automaticamente o armazenamento por meio da otimização preditiva.
Consulte MÉTRICAS DE ARMAZENAMENTO DE COMPUTAÇÃO para obter sintaxe completa e exemplos.
Usar a otimização preditiva para controlar o tamanho dos dados
O Databricks recomenda usar tabelas gerenciadas do Catálogo do Unity com otimização preditiva habilitada. Com tabelas gerenciadas e otimização preditiva, o Databricks executa OPTIMIZE e VACUUM comanda automaticamente para impedir o acúmulo de arquivos de dados não utilizados. Espere sempre haver uma diferença de tamanho entre a versão atual de uma tabela e o tamanho total dos arquivos de dados no armazenamento de objetos na nuvem. Isso ocorre porque os arquivos de dados não referenciados na versão atual são necessários para dar suporte a consultas de viagem no tempo. Consulte Otimização preditiva para tabelas gerenciadas do Catálogo do Unity.
Quais métricas de arquivo VACUUM relata?
Ao limpar arquivos de dados não utilizados com VACUUM ou ao usar DRY RUN para visualizar os arquivos definidos para remoção, as métricas relatam o número de arquivos e o tamanho dos dados removidos. O tamanho e o número de arquivos removidos por VACUUM varia drasticamente, mas não é incomum que o tamanho dos arquivos removidos exceda o tamanho total da versão atual da tabela.
Quais métricas de arquivo OPTIMIZE relata?
Quando OPTIMIZE é executado em uma tabela de destino, novos arquivos de dados combinam registros de arquivos de dados existentes. As alterações realizadas durante OPTIMIZE apenas afetam a organização dos dados, sem alterar o conteúdo dos dados subjacentes. O tamanho total dos arquivos de dados associados à tabela aumenta após a execução de OPTIMIZE, porque os novos arquivos compactados coexistem no diretório contendo os arquivos de dados não mais referenciados.
O tamanho da tabela relatado após a execução de OPTIMIZE geralmente é menor do que o tamanho antes de OPTIMIZE ser executado, porque o tamanho total dos arquivos de dados referenciados pela versão atual da tabela diminui com a compactação dos dados.
VACUUM deve ser executado após o período de retenção ter expirado para remover os arquivos de dados subjacentes.
Observação
Você pode ver métricas semelhantes para operações como REORG TABLE ou DROP FEATURE. Todas as operações que exigem a regravação de arquivos de dados aumentam o tamanho total dos dados no diretório contendo até que VACUUM remova os arquivos de dados que não estão mais referenciados na versão atual da tabela.