Ler em inglês

Compartilhar via


Usar o recurso de manutenção de tabelas para gerenciar tabelas Delta no Fabric

O Lakehouse no Microsoft Fabric fornece o recurso Manutenção de tabelas para gerenciar tabelas Delta com eficiência e mantê-las sempre prontas para análise. Este guia descreve o recurso de manutenção de tabelas no Lakehouse e suas funcionalidades.

Principais funcionalidades do recurso de manutenção da tabelas do Lakehouse:

  • Execute a manutenção de tabelas ad hoc usando ações contextuais de clique com o botão direito do mouse em uma tabela Delta dentro do Lakehouse Explorer.
  • Aplique compactação de bin, V-Order e limpeza de arquivos antigos não referenciados.

Observação

Para tarefas de manutenção avançada, como agrupar vários comandos de manutenção de tabelas, orquestrá-los com base em um agendamento, uma abordagem centrada em código é a opção recomendada. Para saber mais, confira Otimização da tabela Delta Lake e artigo V-Order. Também é possível usar a API do Lakehouse para automatizar operações de manutenção de tabelas. Para saber mais consulte Gerenciar o Lakehouse com a API REST do Microsoft Fabric.

Tipos de arquivo com suporte

A manutenção da tabelas do Lakehouse se aplica apenas às tabelas Delta Lake. Não há suporte para as tabelas herdadas do Hive que usam PARQUET, ORC, AVRO, CSV e outros formatos.

Operações de manutenção de tabelas

O recurso de manutenção de tabelas oferece três operações.

  • Optimize: consolida vários arquivos Parquet pequenos em um arquivo grande. Os mecanismos de processamento de Big Data e todos os mecanismos do Fabric se beneficiam de ter tamanhos maiores de arquivos. Ter arquivos de tamanho acima de 128 MB e, de modo ideal, perto de 1 GB, melhora a compactação e a distribuição de dados nos nós de cluster. Isso reduz a necessidade de verificar vários arquivos pequenos em busca de operações de leitura eficientes. É uma prática recomendada geral executar estratégias de otimização depois de carregar tabelas grandes.
  • V-Order: aplica classificação otimizada, codificação e compactação a arquivos Delta Parquet para habilitar operações de leitura rápida entre todos os mecanismos do Fabric. O V-Order ocorre durante o comando otimizar e é apresentado como uma opção para o grupo de comandos na experiência do usuário. Para saber mais sobre o V-Order, consulte Otimização da tabela Delta Lake e V-Order.
  • Vacuum: remove arquivos antigos que não são mais referenciados por um log da tabela Delta. Os arquivos precisam ser mais antigos que o limite de retenção e o limite de retenção de arquivos padrão é de sete dias. Todas as tabelas delta no OneLake têm o mesmo período de retenção. O período de retenção de arquivos é o mesmo, independentemente do mecanismo de computação de malha que você está usando. Essa manutenção é importante para otimizar o custo de armazenamento. A configuração de um período de retenção mais curto afeta os recursos de viagem no tempo da Delta. É uma melhor prática geral definir um intervalo de retenção para, pelo menos, sete dias, pois instantâneos antigos e arquivos não confirmados ainda podem estar em uso pelos leitores e gravadores de tabela simultâneos. Limpar arquivos ativos com o comando VACUUM pode levar a falhas de leitor ou, até mesmo, corrupção de tabela se os arquivos não confirmados forem removidos.

Executar a manutenção de tabelas ad hoc em uma tabela Delta usando o Lakehouse

Como usar o recurso:

  1. Na sua conta do Microsoft Fabric, navegue até o Lakehouse desejado.

  2. Na seção Tabelas do gerenciador do Lakehouse, clique com o botão direito do mouse na tabela ou use as reticências para acessar o menu de contexto.

  3. Selecione a entrada de menu Manutenção.

  4. Verifique as opções de manutenção na caixa de diálogo de acordo com os seus requisitos. Para obter mais informações, consulte a seção Operações de manutenção de tabelas deste artigo.

  5. Selecione Executar agora para executar o trabalho de manutenção da tabelas.

  6. Acompanhe a execução do trabalho de manutenção pelo painel de notificações ou pelo Hub de monitoramento.

    Captura de tela mostrando a caixa de diálogo carregar nas tabelas com o nome da tabela preenchido.

Como funciona a manutenção de tabelas?

Depois que Executar agora estiver selecionado, um trabalho de manutenção do Spark será enviado para execução.

  1. O trabalho do Spark é enviado usando a identidade do usuário e os privilégios de tabela.
  2. O trabalho do Spark consome a capacidade do Fabric do workspace/usuário que enviou o trabalho.
  3. Se houver outro trabalho de manutenção em execução em uma tabela, um novo trabalho será rejeitado.
  4. Trabalhos em tabelas diferentes podem ser executados em paralelo.
  5. Trabalhos de manutenção de tabelas podem ser facilmente acompanhados no hub de monitoramento. Procure o texto "TableMaintenance" na coluna do nome da atividade na página principal do hub de monitoramento.