Compartilhar via


O que é uma malha de dados?

A malha de dados é um padrão de arquitetura usado para implementar plataformas de dados corporativos em organizações complexas e de grande porte. A malha de dados ajuda a escalar a adoção de análises além de uma única plataforma e uma única equipe de implementação.

Tela de fundo

A necessidade de análise não é uma novidade. As organizações sempre precisaram analisar o desempenho dos negócios e fizeram isso usando computadores desde sua introdução. Por volta da década de 1980, as organizações começaram a criar soluções de armazenamento de dados usando bancos de dados especificamente para suporte à decisão. Essas soluções de armazenamento de dados serviram bem às organizações por um longo tempo.

No entanto, à medida que os negócios mudam e geram dados mais diversos, as soluções de armazenamento de dados que usam bancos de dados relacionais podem nem sempre ser a melhor solução. Nos anos 2000, big data tornou-se um termo comum. As empresas adotaram novas soluções que permitem a análise de grandes volumes de dados diversos que podem ser gerados com grande velocidade. Isso inclui tecnologias como data lakes e soluções de expansão que analisam grandes volumes de dados.

Nos últimos anos, muitas organizações usam com sucesso padrões modernos de arquitetura e análise que combinam tecnologias de armazenamento de dados e tecnologias de Big Data mais recentes.

No entanto, algumas organizações encontram problemas ao implantar soluções analíticas que usam padrões analíticos. Essas soluções ainda são comumente implementadas como soluções monolíticas, onde uma única equipe é o provedor da plataforma e a equipe faz a integração de dados. Organizações menores e organizações que têm um alto grau de centralização do ponto de vista da configuração da equipe podem usar uma única equipe. No entanto, uma organização maior que usa apenas uma única equipe geralmente cria um gargalo. Esse gargalo causa um enorme backlog, o que resulta em partes de uma organização aguardando serviços de integração de dados e soluções analíticas.

Esse padrão se torna mais comum à medida que as organizações adotam soluções modernas de ciência de dados. Muitas soluções modernas de ciência de dados exigem mais dados do que as soluções tradicionais de business intelligence no passado.

A recente mudança para o uso de microsserviços como um padrão de desenvolvimento de aplicativos é outro condutor de longas listas de pendências em relação à integração de dados, pois aumenta o número de fontes de dados.

Uma única equipe lidando com toda a ingestão de dados em uma única plataforma em uma grande organização também pode ser problemática. Uma equipe raramente tem especialistas para cada fonte de dados. A maioria das organizações é descentralizada e distribuída da perspectiva de negócios. Diferentes unidades de negócios e departamentos lidam com diferentes partes da operação comercial, então os especialistas em dados geralmente ficam espalhados por vários setores.

Um padrão chamado malha de dados foi introduzido para resolver esses problemas. O objetivo da malha de dados é permitir que equipes distribuídas trabalhem e compartilhem informações de maneira descentralizada e ágil.

A malha de dados é um padrão técnico que também exige uma mudança organizacional. Os benefícios de uma abordagem de malha de dados são obtidos pela implementação de equipes multidisciplinares que publicam e consomem produtos de dados.

Os seguintes conceitos são fundamentais para entender a arquitetura da malha de dados:

  • Domínios de dados
  • Produtos de dados
  • Plataformas de autoatendimento
  • Governança federada

Domínios de dados

Os domínios de dados são a base da malha de dados. O conceito de domínios de dados surgiu do Desenvolvimento Controlado pelo Domínio (DDD), um paradigma frequentemente usado no desenvolvimento de software para modelar soluções de software complexas. Na malha de dados, um domínio de dados é uma forma de definir limites em relação aos seus dados corporativos. Os domínios podem variar conforme a organização e, em alguns casos, você pode definir domínios na sua organização. Em outros casos, você pode optar por modelar domínios de dados com base nos seus processos comerciais ou sistemas de origem.

Há três aspectos em relação aos domínios de dados:

  • Os limites escolhidos servem para a propriedade de longo prazo. Eles existem por um longo período e identificaram os proprietários.

  • Seus domínios devem corresponder à realidade, não apenas aos conceitos teóricos.

  • Seus domínios precisam ter integridade atômica. Se as áreas não tiverem nenhuma relação entre si, não as combine em um domínio juntas.

Para obter mais informações sobre domínios de dados e como você deve defini-los, consulte Domínios de dados.

Produtos de dados

Os produtos de dados são outro componente importante da malha de dados. Os produtos de dados visam levar o pensamento do produto ao mundo dos dados. Para que seu produto de dados seja bem-sucedido, ele precisa fornecer um valor comercial de longo prazo para os usuários pretendidos. Na malha de dados, um produto de dados envolve dados, ativos de código, metadados e políticas relacionadas. Os produtos de dados podem ser entregues como uma API, um relatório, uma tabela ou um conjunto de dados em um data lake.

Um produto de dados bem-sucedido precisa ser:

  • Utilizável: seu produto deve ter usuários fora do domínio de dados imediato.
  • Valioso: seu produto precisa manter o valor ao longo do tempo. Se não tiver valor a longo prazo, não poderá ter sucesso.
  • Viável: seu produto precisa ser viável. Se você não consegue criá-lo de fato, o produto não pode ser um sucesso. Seu produto precisa ser viável tanto do ponto de vista técnico quanto de disponibilidade de dados.

Os ativos de código de um produto de dados incluem o código que o gera e o código que o fornece. Os ativos de código também incluem pipelines usados para criar o produto e o relatório final do produto.

Para obter mais informações sobre produtos de dados, consulte Produtos de dados de análise em escala de nuvem no Azure.

Para obter diretrizes específicas sobre como usar a malha de dados, confira O que é um produto de dados?.

Plataformas de autoatendimento

Um núcleo da malha de dados é ter uma plataforma que permita que os domínios de dados criem produtos de dados por conta própria. Os domínios de dados precisam definir produtos de dados usando ferramentas e processos relevantes para os usuários sem ter uma forte dependência de uma plataforma central ou de uma equipe de plataforma central. Em uma malha de dados, você tem equipes autônomas desenvolvendo e gerenciando produtos autônomos.

Ao usar a descentralização e o alinhamento com usuários comerciais que entendem seus dados, lembre-se dos generalistas que também trabalham em sua plataforma. Como você tem generalistas, não pode ter ferramentas especializadas que exigem conhecimento especializado para operar como a base central da sua plataforma baseada em malha.

Você pode implementar com sucesso sua plataforma de autoatendimento adotando as práticas descritas em Considerações sobre design para plataformas de dados de autoatendimento.

Governança federada

Ao adotar uma plataforma de dados distribuída de autoatendimento, você precisa dar maior ênfase à governança. A falta de governança leva a silos e a duplicação de dados nos domínios de dados. Federe sua governança, pois há pessoas que entendem a necessidade de governança em suas equipes alinhadas ao domínio e entre os proprietários de dados.

Para criar sua governança federada, implemente políticas automatizadas em relação às necessidades de dados e de plataforma. Use um alto grau de automação para teste e monitoramento. Adote uma estratégia de implementação que prioriza o código para lidar com padrões, políticas, produtos de dados e implantação da plataforma como código.

Para obter mais informações sobre como implementar aspectos da governança federada, confira Visão geral da governança de dados.

Resumo

A malha de dados pode ser uma forma eficaz de implementar plataformas de dados corporativos, mas não é a melhor solução para todas as organizações. Ela exige equipes autônomas que possam trabalhar de maneira independente. A malha de dados funciona melhor em organizações grandes e complexas que têm unidades de negócios independentes e precisam expandir sua adoção de análises além de uma única equipe de plataforma e implementação.

Ao usar a malha de dados, tenha cuidado especial ao implementar sua governança para que você não crie silos. Sempre mantenha o pensamento do produto para os dados no centro da sua implementação para garantir o sucesso.

Próximas etapas