Compartilhar via


Guia rápido de preparação de dados

O desempenho de BI de alto nível depende da eficácia com que os dados são preparados e entregues a partir do Lakehouse. Ao adotar padrões arquitetônicos, aplicar uma estrutura semântica e usar otimizações direcionadas, você pode reduzir a complexidade da consulta, melhorar a capacidade de resposta do painel e reduzir os custos de computação.

A tabela a seguir resume as práticas recomendadas, o impacto esperado, a documentação relacionada e os itens de ação associados. Esse conteúdo destina-se a engenheiros de dados, desenvolvedores de BI e autores de dashboard que projetam, otimizam e mantêm cargas de trabalho de análise no Lakehouse.

Preparação de dados

Melhor prática Impacto Docs Itens de ação
Adotar uma arquitetura de medalhão Acelera a criação de dados brutos em produtos de dados confiáveis prontos para uso para facilitar o consumo. Examinar e implementar camadas de medalhão
Usar agrupamento líquido Melhora o desempenho de consultas com a omissão de arquivos e dados. Aplicar a tabelas grandes com padrões de filtro
Usar tabelas gerenciadas O Azure Databricks rege automaticamente e otimiza o desempenho da camada de armazenamento e da consulta. Criar tabelas gerenciadas para seus dados
Usar a otimização preditiva ou otimizar tabelas manualmente Permite um melhor desempenho de consulta otimizando tamanhos de arquivo e layout, excluindo arquivos antigos e atualizando estatísticas. Habilitar para tabelas de produção ou agendar otimização regular e analisar tabelas após alterações de dados
Modelar dados em um padrão de esquema estrela Facilita a consulta e o consumo dos dados. Projetar tabelas de fatos e dimensões
Evitar tipos de dados largos e colunas de alta cardinalidade Otimiza o tamanho do modelo de dados e o consumo de memória e melhora a eficiência da consulta. Examinar tipos de dados e cardinalidade
Declarar chaves primárias e estrangeiras (com RELY) Otimiza consultas eliminando junções e agregações desnecessárias. Definir chaves em tabelas de fatos e dimensões
Usar colunas geradas automaticamente Reduz a necessidade de calcular valores em tempo de consulta. Identifique campos frequentemente calculados
Usar exibições materializadas e tabelas persistentes Melhora o desempenho agregando dados previamente para as consultas mais comuns e com uso intensivo de recursos. Criar exibições agregadas para consultas comuns