Tabelas do Lakehouse e Delta Lake

Artigo
11/15/2023

O Lakehouse do Microsoft Fabric é uma plataforma de arquitetura de dados para armazenar, gerenciar e analisar dados estruturados e não estruturados em um único local. Para obter acesso contínuo aos dados em todos os mecanismos de computação no Microsoft Fabric, o Delta Lake é escolhido como o formato de tabela unificado.

Salvando dados no Lakehouse usando recursos como Carregar para Tabelas ou os métodos descritos em Opções para obter dados no Lakehouse do Fabric, todos os dados são salvos no formato Delta.

Para obter uma introdução mais abrangente ao formato de tabela do Delta Lake, siga os links na seção Próximas etapas.

Big Data, Apache Spark e formatos de tabela herdados

O Microsoft Fabric Runtime para Apache Spark usa a mesma base que o Azure Synapse Analytics Runtime para Apache Spark, mas contém as principais diferenças para fornecer um comportamento mais simplificado em todos os mecanismos no serviço do Microsoft Fabric. No Microsoft Fabric, os principais recursos de desempenho são ativados por padrão. Os usuários avançados do Apache Spark podem reverter configurações a valores anteriores para se alinharem melhor a cenários específicos.

O Lakehouse do Microsoft Fabric e o mecanismo do Apache Spark dão suporte a todos os tipos de tabela, gerenciados e não gerenciados; isso inclui exibições e formatos regulares de tabela do Hive não Delta. Tabelas definidas por meio de PARQUET, CSV, AVRO, JSON e qualquer formato de arquivo compatível com Apache Hive funcionam conforme o esperado.

A experiência de interface do usuário do Lakehouse Explorer varia dependendo do tipo de tabela. Atualmente, o Lakehouse Explorer renderiza apenas objetos de tabela.

Diferenças de configuração com o Azure Synapse Analytics

A tabela a seguir contém as diferenças de configuração entre o Azure Synapse Analytics e o Microsoft Fabric Runtime para Apache Spark.

Configuração do Apache Spark	Valor do Microsoft Fabric	Valor do Azure Synapse Analytics	Observações
spark.sql.sources.default	delta	parquet	Formato de tabela padrão
spark.sql.parquet.vorder.enabled	true	N/D	Gravador de Ordem V
spark.sql.parquet.vorder.dictionaryPageSize	2 GB	N/D	Limite de tamanho da página do dicionário para Ordem V
spark.microsoft.delta.optimizeWrite.enabled	true	unset (false)	Otimizar gravação

Descoberta automática de tabelas

O Lakehouse explorer fornece uma exibição semelhante a uma árvore dos objetos no item do Microsoft Fabric Lakehouse. Ele tem uma capacidade fundamental de descobrir e exibir tabelas descritas no repositório de metadados e no armazenamento do OneLake. As referências de tabela são exibidas na seção Tables da interface do usuário do Lakehouse Explorer. A descoberta automática também se aplica a tabelas definidas em atalhos do OneLake.

Tabelas em atalhos

O Lakehouse do Microsoft Fabric é compatível com tabelas definidas em atalhos do OneLake para fornecer a maior compatibilidade e nenhuma movimentação de dados. A tabela a seguir contém as práticas recomendadas de cenário para cada tipo de item ao usá-la em atalhos.

Destino de atalho	Onde criar o atalho	Prática recomendada
Tabela do Delta Lake	`Tables` section	Se várias tabelas estiverem presentes no destino, crie um atalho por tabela.
Pastas com arquivos	`Files` section	Use o Apache Spark para usar o destino diretamente usando caminhos relativos. Carregue os dados em tabelas Delta nativas do Lakehouse para obter o desempenho máximo.
Tabelas herdadas do Apache Hive	`Files` section	Use o Apache Spark para usar o destino diretamente usando caminhos relativos ou crie uma referência de catálogo de metadados usando a sintaxe `CREATE EXTERNAL TABLE`. Carregue os dados em tabelas Delta nativas do Lakehouse para obter o desempenho máximo.

Carregar para as Tabelas

O Lakehouse do Microsoft Fabric fornece uma interface de usuário conveniente e produtiva para simplificar o carregamento de dados em tabelas Delta. O recurso Carregar para as Tabelas permite que uma experiência visual carregue formatos de arquivo comuns no Delta para aumentar a produtividade analítica para todas as personas. Para saber mais sobre o recurso Carregar em Tabelas em detalhes, leia a documentação de referência do recurso Carregar para Tabelas do Lakehouse Load .

Otimização de tabela do Delta Lake

Manter tabelas em forma para o escopo amplo de cenários de análise não é um feito menor. O Lakehouse do Microsoft Fabric permite proativamente os parâmetros importantes para minimizar problemas comuns associados a tabelas de Big Data, como compactação e tamanhos de arquivos pequenos, e maximizar o desempenho da consulta. Ainda assim, há muitos cenários em que esses parâmetros precisam de alterações. O artigo Otimização de tabela e Ordem V do Delta Lake aborda alguns cenários importantes e fornece um guia detalhado sobre como manter tabelas Delta com eficiência para o desempenho máximo.

Compartilhar via

Tabelas do Lakehouse e Delta Lake

Big Data, Apache Spark e formatos de tabela herdados

Diferenças de configuração com o Azure Synapse Analytics

Descoberta automática de tabelas

Tabelas em atalhos

Carregar para as Tabelas

Otimização de tabela do Delta Lake

Comentários

Comentários

Recursos adicionais

Compartilhar via

Tabelas do Lakehouse e Delta Lake

Big Data, Apache Spark e formatos de tabela herdados

Diferenças de configuração com o Azure Synapse Analytics

Descoberta automática de tabelas

Tabelas em atalhos

Carregar para as Tabelas

Otimização de tabela do Delta Lake

Conteúdo relacionado

Comentários

Comentários

Recursos adicionais