Partilhar via


O que é a arquitetura do medalhão lakehouse?

A arquitetura medalhão descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados na casa do lago. A Databricks recomenda adotar uma abordagem em várias camadas para criar uma única fonte de verdade para produtos de dados corporativos. Essa arquitetura garante atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas de validações e transformações antes de serem armazenados em um layout otimizado para análises eficientes. Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.

É importante notar que esta arquitetura medalhão não substitui outras técnicas de modelagem dimensional. Esquemas e tabelas dentro de cada camada podem assumir uma variedade de formas e graus de normalização, dependendo da frequência e natureza das atualizações de dados e dos casos de uso downstream para os dados.

As organizações podem aproveitar o Databricks lakehouse para criar e manter conjuntos de dados validados acessíveis em toda a empresa. Adotar uma mentalidade organizacional focada na curadoria de dados como produtos é um passo fundamental para construir com sucesso um data lakehouse.

Ingerir dados brutos para a camada de bronze

A camada de bronze contém dados não validados. Dados ingeridos na camada de bronze normalmente:

  • Mantém o estado bruto da fonte de dados.
  • É anexado incrementalmente e cresce ao longo do tempo.
  • Pode ser qualquer combinação de streaming e transações em lote.

Manter o histórico completo e não processado de cada conjunto de dados em um formato de armazenamento eficiente fornece a capacidade de recriar qualquer estado de um determinado sistema de dados.

Metadados adicionais (como nomes de arquivos de origem ou registro da hora em que os dados foram processados) podem ser adicionados aos dados sobre ingestão para maior capacidade de descoberta, descrição do estado do conjunto de dados de origem e desempenho otimizado em aplicativos downstream.

Validar e desduplicar dados na camada prateada

Lembre-se de que, enquanto a camada bronze contém todo o histórico de dados em um estado quase bruto, a camada prata representa uma versão validada e enriquecida de nossos dados que pode ser confiável para análises downstream.

Embora a Databricks acredite fortemente na visão lakehouse impulsionada por mesas de bronze, prata e ouro, simplesmente implementar uma camada de prata de forma eficiente desbloqueará imediatamente muitos dos benefícios potenciais da lakehouse.

Para qualquer pipeline de dados, a camada prateada pode conter mais de uma tabela.

Análise de energia com a camada ouro

Esses dados dourados geralmente são altamente refinados e agregados, contendo dados que alimentam aplicativos de análise, aprendizado de máquina e produção. Embora todas as tabelas na casa do lago devam servir a um propósito importante, as tabelas douradas representam dados que foram transformados em conhecimento, em vez de apenas informações.

Os analistas confiam em grande parte em tabelas de ouro para suas principais responsabilidades, e os dados compartilhados com um cliente raramente seriam armazenados fora desse nível.

As atualizações dessas tabelas são concluídas como parte de cargas de trabalho de produção agendadas regularmente, o que ajuda a controlar os custos e permite que os SLAs (Service Level Agreements, contratos de nível de serviço) para a atualização dos dados sejam estabelecidos.

Embora o lakehouse não tenha os mesmos problemas de bloqueio que você pode encontrar em um armazém de dados corporativo, as tabelas gold geralmente são armazenadas em um contêiner de armazenamento separado para ajudar a evitar limites de nuvem em solicitações de dados.

Em geral, como agregações, junções e filtragem são manipuladas antes que os dados sejam gravados na camada ouro, os usuários devem ver o desempenho da consulta de baixa latência nos dados em tabelas gold.