Partilhar via


Mesas Lakehouse e Delta Lake

O Microsoft Fabric Lakehouse é uma plataforma de arquitetura de dados para armazenar, gerenciar e analisar dados estruturados e não estruturados em um único local. Para obter acesso contínuo aos dados em todos os mecanismos de computação no Microsoft Fabric, o Delta Lake é escolhido como o formato de tabela unificado.

Salvando dados no Lakehouse usando recursos como Load to Tables ou métodos descritos em Opções para obter dados no Fabric Lakehouse, todos os dados são salvos no formato Delta.

Para obter uma introdução mais abrangente ao formato de tabela Delta Lake, siga os links na seção Próximas etapas.

Big data, Apache Spark e formatos de tabela herdados

O Microsoft Fabric Runtime for Apache Spark usa a mesma base do Azure Synapse Analytics Runtime for Apache Spark, mas contém diferenças importantes para fornecer um comportamento mais simplificado em todos os mecanismos no serviço Microsoft Fabric. No Microsoft Fabric, os principais recursos de desempenho são ativados por padrão. Os usuários avançados do Apache Spark podem reverter as configurações para valores anteriores para melhor se alinhar com cenários específicos.

O Microsoft Fabric Lakehouse e o mecanismo Apache Spark suportam todos os tipos de tabela, gerenciados e não gerenciados; isso inclui exibições e formatos de tabela regulares não Delta Hive. As tabelas definidas usando PARQUET, CSV, AVRO, JSON e qualquer formato de arquivo compatível com Apache Hive funcionam conforme o esperado.

A experiência da interface do usuário do Lakehouse Explorer varia dependendo do tipo de tabela. Atualmente, o Lakehouse explorer processa apenas objetos de tabela.

Diferenças de configuração com o Azure Synapse Analytics

A tabela a seguir contém as diferenças de configuração entre o Azure Synapse Analytics e o Microsoft Fabric Runtime for Apache Spark.

Configuração do Apache Spark Valor do Microsoft Fabric Valor do Azure Synapse Analytics Notas
spark.sql.sources.default delta Parquet Formato de tabela padrão
spark.sql.parquet.vorder.enabled verdadeiro N/A Redator V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/A Limite de tamanho de página de dicionário para V-Order
spark.microsoft.delta.optimizeWrite.enabled verdadeiro unset (falso) Otimizar gravação

Descoberta automática de tabelas

O explorador Lakehouse fornece uma exibição em forma de árvore dos objetos no item Microsoft Fabric Lakehouse. Ele tem uma capacidade chave de descobrir e exibir tabelas descritas no repositório de metadados e no armazenamento do OneLake. As referências da tabela são exibidas na Tables seção da interface do usuário do Lakehouse Explorer. A descoberta automática também se aplica a tabelas definidas em atalhos do OneLake.

Tabelas sobre atalhos

O Microsoft Fabric Lakehouse oferece suporte a tabelas definidas em atalhos do OneLake, para fornecer compatibilidade máxima e nenhuma movimentação de dados. A tabela a seguir contém as práticas recomendadas de cenário para cada tipo de item ao usá-lo em atalhos.

Destino do atalho Onde criar o atalho Melhor prática
Mesa Delta Lake Tables secção Se várias tabelas estiverem presentes no destino, crie um atalho por tabela.
Pastas com ficheiros Files secção Use o Apache Spark para usar o destino diretamente usando caminhos relativos. Carregue os dados em tabelas Delta nativas do Lakehouse para obter o máximo desempenho.
Tabelas herdadas do Apache Hive Files secção Use o Apache Spark para usar o destino diretamente usando caminhos relativos ou crie uma referência de catálogo de metadados usando CREATE EXTERNAL TABLE sintaxe. Carregue os dados em tabelas Delta nativas do Lakehouse para obter o máximo desempenho.

Carregar em tabelas

O Microsoft Fabric Lakehouse fornece uma interface de usuário conveniente e produtiva para agilizar o carregamento de dados em tabelas Delta. O recurso Load to Tables permite que uma experiência visual carregue formatos de arquivo comuns para Delta para aumentar a produtividade analítica de todas as personas. Para saber mais sobre o recurso Carregar para tabelas em detalhes, leia a documentação de referência do Lakehouse Load to Tables .

Otimização da tabela Delta Lake

Manter as tabelas em forma para o amplo escopo de cenários de análise não é uma tarefa menor. O Microsoft Fabric Lakehouse habilita proativamente os parâmetros importantes para minimizar problemas comuns associados a tabelas de big data, como compactação e tamanhos de arquivo pequenos, e para maximizar o desempenho da consulta. Ainda assim, há muitos cenários em que esses parâmetros precisam de alterações. O artigo Otimização de tabelas Delta Lake e V-Order aborda alguns cenários-chave e fornece um guia detalhado sobre como manter eficientemente as tabelas Delta para obter o máximo desempenho.