Descrever a arquitetura do medalhão

Concluído

As data lakehouses no Fabric são construídas no formato Delta Lake, que suporta nativamente transações ACID (Atomicidade, Consistência, Isolamento, Durabilidade). Dentro dessa estrutura, a arquitetura medallion é um padrão de design de dados recomendado usado para organizar dados em uma casa de lago logicamente. O objetivo é melhorar a qualidade dos dados à medida que se movem através de diferentes camadas. A arquitetura normalmente tem três camadas – bronze (bruto), prata (validado) e ouro (enriquecido), cada um representando níveis mais altos de qualidade de dados. Algumas pessoas também a chamam de arquitetura "multi-hop", o que significa que os dados podem se mover entre as camadas conforme necessário.

Essa arquitetura garante que os dados sejam confiáveis e consistentes à medida que passam por várias verificações e alterações. Também garante que os dados são armazenados com segurança de uma forma que torna a análise mais fácil e rápida.

A arquitetura medallion complementa outros métodos de organização de dados, em vez de substituí-los. Você pode pensar na arquitetura medallion como a estrutura para limpeza de dados, em vez de uma arquitetura ou modelo de dados. Ele garante compatibilidade e flexibilidade para que as empresas adotem seus benefícios juntamente com os modelos de dados existentes, permitindo que você personalize soluções de dados e preserve a experiência, permanecendo adaptável no cenário de dados em constante mudança.

Diagram of a medallion architecture where data flows from the source to the bronze, silver, and gold layers.

Entenda o formato da arquitetura medalhão

Camada de bronze

A camada de bronze ou crua da arquitetura medalhão é a primeira camada da casa do lago. É a zona de aterrissagem para todos os dados, sejam eles estruturados, semiestruturados ou não estruturados. Os dados são armazenados em seu formato original e nenhuma alteração é feita neles.

Camada de prata

A camada de prata ou validada é a segunda camada da casa do lago. É onde você validará e refinará seus dados. As atividades típicas na camada prateada incluem combinar e mesclar dados e aplicar regras de validação de dados, como remover nulos e desduplicar. A camada prata pode ser pensada como um repositório central em toda uma organização ou equipe, onde os dados são armazenados em um formato consistente e podem ser acessados por várias equipes. Na camada de prata, você está limpando seus dados o suficiente para que tudo esteja em um só lugar e pronto para ser refinado e modelado na camada de ouro.

Camada de ouro

A camada de ouro ou enriquecida é a terceira camada da casa do lago. Na camada ouro, os dados passam por um refinamento adicional para se alinharem às necessidades específicas de negócios e análises. Isso pode envolver a agregação de dados a uma granularidade específica, como diária ou horária, ou o enriquecimento com informações externas. Quando os dados atingem o estágio ouro, eles ficam prontos para uso por equipes downstream, incluindo análise, ciência de dados ou MLOps.

Personalize a sua arquitetura medalhão

Dependendo do caso de uso específico da sua organização, você pode precisar de mais camadas. Por exemplo, você pode ter uma camada "bruta" adicional para dados de aterrissagem em um formato específico antes de serem transformados na camada bronze. Ou você pode ter uma camada "platina" para dados que foram ainda mais refinados e enriquecidos para um caso de uso específico. Independentemente dos nomes e do número de camadas, a arquitetura medalhão é flexível e pode ser adaptada para atender aos requisitos específicos da sua organização.

Mover dados entre camadas no Fabric

A movimentação de dados entre camadas de medalhões refina, organiza e prepara para atividades de dados downstream. Dentro do lakehouse do Fabric, há mais de uma maneira de mover dados entre camadas, garantindo que você possa escolher o método que funciona para sua equipe.

Há algumas coisas a considerar ao decidir como mover e transformar dados entre camadas.

  • Com quantos dados você está trabalhando?
  • Quão complexas são as transformações que você precisa fazer?
  • Com que frequência você precisará mover dados entre camadas?
  • Com que ferramentas se sente mais confortável?

Compreender a diferença entre transformação de dados e orquestração de dados ajuda a selecionar as ferramentas certas para o trabalho no Fabric.

A transformação de dados envolve a alteração da estrutura ou do conteúdo dos dados para atender a requisitos específicos. As ferramentas para transformação de dados no Fabric incluem fluxos de dados (Gen2) e notebooks. Os fluxos de dados são uma ótima opção para modelos semânticos menores e transformações simples. Os notebooks são uma opção melhor para modelos semânticos maiores e transformações mais complexas. Os blocos de anotações também permitem que você salve seus dados transformados como uma tabela Delta gerenciada na casa do lago, pronta para relatórios.

A orquestração de dados refere-se à coordenação e gestão de múltiplos processos relacionados com dados, garantindo que trabalham em conjunto para alcançar um resultado desejado. A principal ferramenta para orquestração de dados no Fabric são os pipelines. Um pipeline é uma série de etapas que movem dados de um lugar para outro, neste caso, de uma camada da arquitetura medalhão para a próxima. Os pipelines podem ser automatizados para serem executados em uma programação ou acionados por um evento.