Editar

Armazém de dados empresarial

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

Ideias de soluções

Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.

Este artigo apresenta uma solução para um armazém de dados empresarial no Azure que:

  • Reúne todos os seus dados, independentemente da escala ou formato.
  • Fornece uma maneira para todos os seus usuários obterem insights de seus dados por meio de painéis analíticos, relatórios operacionais e análises avançadas.

Apache e Apache Spark são marcas registadas ou marcas comerciais da Apache® Software Foundation nos Estados Unidos e/ou noutros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.

Arquitetura

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  1. Os pipelines do Azure Synapse Analytics reúnem dados estruturados, não estruturados e semiestruturados, como logs, arquivos e mídia. Os pipelines armazenam os dados no Armazenamento do Azure Data Lake.
  2. Os pools do Apache Spark no Azure Synapse Analytics limpam e transformam os dados do Armazenamento Data Lake.
  3. O Azure Synapse Analytics combina os dados processados com dados estruturados existentes, criando um hub de dados unificado.
  4. Um pool SQL dedicado disponibiliza os dados para relatórios operacionais e painéis analíticos que derivam insights. O Azure Analysis Services fornece os relatórios e painéis para milhares de usuários finais.

Componentes

  • O Azure Synapse Analytics é um serviço de análise para armazéns de dados e sistemas de big data. Essa ferramenta usa uma arquitetura de processamento paralelo maciço e tem integração profunda com os serviços do Azure.
  • Os pipelines do Azure Synapse Analytics fornecem uma maneira de criar, agendar e orquestrar fluxos de trabalho, como fluxos de trabalho de extração, carregamento, transformação (ELT) e fluxos de trabalho de extração, transformação, carregamento (ETL).
  • O Armazenamento de Blobs do Azure fornece armazenamento de objetos altamente escalável e econômico para qualquer tipo de dados não estruturados — imagens, vídeos, áudio, documentos e muito mais.
  • O Data Lake Storage é um repositório de armazenamento que contém uma grande quantidade de dados em seu formato nativo bruto. O Armazenamento Data Lake é construído sobre o Armazenamento de Blobs. Como resultado, o Data Lake Storage oferece os recursos de escalabilidade, armazenamento hierárquico, alta disponibilidade e recuperação de desastres do Armazenamento de Blobs.
  • Os pools do Azure Synapse Analytics Spark fornecem uma estrutura de processamento paralelo que dá suporte ao processamento na memória para aumentar o desempenho de aplicativos analíticos de big data.
  • O Analysis Services é um mecanismo de análise de nível empresarial que fornece uma maneira fácil para os usuários executarem análises de dados ad hoc. Você pode usar o Analysis Services para governar, testar e fornecer soluções de negócios em escala.
  • O Power BI é um conjunto de ferramentas de análise de negócios que fornecem informações em toda a sua organização. Você pode usar o Power BI para se conectar a centenas de fontes de dados, simplificar a preparação de dados e conduzir análises ad hoc. Você também pode produzir belos relatórios e publicá-los para sua organização consumir na Web e em dispositivos móveis.

Detalhes do cenário

Um armazém de dados empresarial reúne todos os seus dados, independentemente da origem, formato ou escala. Um data warehouse também fornece uma maneira de executar análises de alto desempenho em seus dados, para que você possa obter insights por meio de painéis analíticos, relatórios operacionais e análises avançadas.

Esta solução estabelece um armazém de dados que:

  • É uma única fonte de verdade para os seus dados.
  • Integra fontes de dados relacionais com outros conjuntos de dados não estruturados.
  • Usa modelagem semântica e poderosas ferramentas de visualização para uma análise de dados mais simples.

Para integrar dados em uma plataforma unificada, essa solução usa pipelines do Azure Synapse Analytics. Esses pipelines oferecem recursos de ELT e ETL. Especificamente, você pode usar os pipelines para mover dados em fluxos de trabalho controlados por dados. Os pipelines trabalham com vários formatos e estruturas de dados.

Os pipelines armazenam os dados no Armazenamento Data Lake, que é construído no Armazenamento de Blob. Esse serviço de armazenamento pode lidar com grandes volumes de dados não estruturados.

Os pools do Azure Synapse Analytics Spark formam uma parte fundamental da solução. Esses pools limpam e transformam dados armazenados no Azure. Sua estrutura de processamento paralelo suporta processamento na memória para velocidade e eficiência. Os pools também oferecem suporte ao dimensionamento automático, para que possam adicionar ou remover nós conforme necessário.

Um pool SQL dedicado disponibiliza os dados processados para análises de alto desempenho. Esse pool armazena dados em tabelas relacionais com armazenamento colunar, um formato que reduz significativamente o custo de armazenamento de dados. Ele também melhora o desempenho da consulta, para que você possa executar análises em grande escala.

Potenciais casos de utilização

Você pode usar essa solução em cenários como os a seguir que envolvem grandes volumes de dados:

  • Integração de dispositivos IoT
  • Plataformas de dados de clientes
  • Processamento de linguagem natural
  • Algoritmos de aprendizagem automática

Preços

Para visualizar uma estimativa do custo desta solução, consulte um exemplo de definição de preço na calculadora de preços.

Próximos passos