Data warehouse corporativo

Armazenamento do Blobs do Azure
Azure Data Lake
Azure Synapse Analytics

Ideias de soluções

Esse artigo é uma ideia de solução. Caso deseje que ampliemos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco enviando seus comentários no GitHub.

Este artigo apresenta uma solução para um data warehouse corporativo no Azure que:

  • Reúne todos os seus dados, independentemente da escala ou formato.
  • Fornece uma maneira para todos os seus usuários obterem insights de seus dados por meio de painéis analíticos, relatórios operacionais e análises avançadas.

Apache® e Apache Spark são marcas registradas ou marcas comerciais do Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

Arquitetura

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

  1. Os pipelines do Azure Synapse Analytics reúnem dados estruturados, não estruturados e semiestruturados, como logs, arquivos e mídia. Os pipelines armazenam os dados no Azure Data Lake Storage.
  2. Os pools do Apache Spark no Azure Synapse Analytics limpam e transformam os dados do Data Lake Storage.
  3. O Azure Synapse Analytics combina os dados processados com os dados estruturados existentes, criando um hub de dados unificado.
  4. Um pool SQL dedicado disponibiliza os dados para relatórios operacionais e painéis analíticos que derivam insights. O Azure Analysis Services serve os relatórios e painéis para milhares de usuários finais.

Componentes

  • O Azure Synapse Analytics é um serviço de análise para data warehouses e sistemas de big data. Essa ferramenta usa uma arquitetura de processamento massivamente paralela e tem integração profunda com os serviços do Azure.
  • Os pipelines do Azure Synapse Analytics fornecem uma maneira de criar, agendar e orquestrar fluxos de trabalho, como fluxos de trabalho de extração, carregamento, transformação (ELT) e extração, transformação, carregamento (ETL).
  • O Azure Blob Storage fornece armazenamento de objetos extremamente escalonável e econômico para qualquer tipo de dados não estruturados: imagens, vídeos, áudio, documentos e muito mais.
  • O Data Lake Storage é um repositório de armazenamento que contém uma grande quantidade de dados em seu formato nativo e bruto. O Data Lake Storage é criado no Blob Storage. Como resultado, o Data Lake Storage oferece os recursos de escalabilidade, armazenamento hierárquico, alta disponibilidade e recuperação de desastres do Blob Storage.
  • Os pools do Spark do Azure Synapse Analytics: fornece uma estrutura de processamento paralelo que dá suporte ao processamento em memória para aprimorar o desempenho de aplicativos de análise de Big Data.
  • O Analysis Services é um mecanismo de análise de nível empresarial que fornece uma maneira fácil para os usuários executarem análises de dados ad hoc. Você pode usar o Analysis Services para controlar, testar e fornecer soluções de negócios em escala.
  • O Power BI é um pacote de ferramentas de análise de negócios que fornece insights a toda a organização. Você pode usar o Power BI para se conectar a centenas de fontes de dados, simplificar a preparação de dados e impulsionar a análise ad hoc. Você também pode gerar belos relatórios e publicá-los para que sua organização consuma na Web e em dispositivos móveis.

Detalhes do cenário

Um data warehouse corporativo reúne todos os seus dados, independentemente da origem, formato ou escala. Um data warehouse também fornece uma maneira de executar análises de alto desempenho em seus dados, para que você possa obter insights por meio de painéis analíticos, relatórios operacionais e análises avançadas.

Essa solução estabelece um data warehouse que:

  • É uma única fonte de verdade para seus dados.
  • Integra as fontes de dados relacionais com outros conjuntos de dados não estruturados.
  • Usa a modelagem semântica e as ferramentas de visualização poderosas para uma análise de dados mais simples.

Para integrar dados em uma plataforma unificada, essa solução usa pipelines do Azure Synapse Analytics. Esses pipelines oferecem recursos ELT e ETL. Especificamente, você pode usar os pipelines para mover dados em fluxos de trabalho controlados por dados. Os pipelines trabalham com vários formatos e estruturas de dados.

Os pipelines armazenam os dados no Data Lake Storage, que é criado no Armazenamento de Blobs. Esse serviço de armazenamento pode lidar com grandes volumes de dados não estruturados.

Os pools do Azure Synapse Analytics Spark formam uma parte fundamental da solução. Esses pools limpam e transformam dados armazenados no Azure. Sua estrutura de processamento paralelo suporta processamento na memória para velocidade e eficiência. Os pools também oferecem suporte ao dimensionamento automático, para que possam adicionar ou remover nós conforme necessário.

Um pool SQL dedicado disponibiliza os dados processados para análises de alto desempenho. Esse pool armazena dados em tabelas relacionais com armazenamento colunar, um formato que reduz significativamente o custo de armazenamento de dados. Ele também melhora o desempenho da consulta, para que você possa executar análises em grande escala.

Possíveis casos de uso

Você pode usar essa solução em cenários como os seguintes, que envolvem grandes volumes de dados:

  • Integração do dispositivo IoT
  • PlataformaS de dados do cliente
  • Processamento de linguagem natural
  • Algoritmos de aprendizado de máquina

Preços

Para exibir uma estimativa do custo dessa solução, consulte um exemplo de preço na calculadora de preços.

Próximas etapas