Data warehouse lógico com pools de SQL sem servidor do Azure Synapse

Azure Cosmos DB
Fábrica de dados do Azure
Azure Data Lake
Azure Synapse Analytics
Power BI

Ideias de soluções

Esse artigo é uma ideia de solução. Caso deseje que ampliemos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco enviando seus comentários no GitHub.

O padrão de data warehouse lógico (LDW) coloca uma camada relacional virtualizada leve sobre os dados armazenados em um data lake ou banco de dados. Essa camada de virtualização fornece acesso ao data warehouse sem exigir a movimentação de dados. Essa solução pode combinar dados OLTP (processamento de transações on-line) com dados analíticos de data lakes para uma maneira de baixa complexidade e baixa latência para atender cargas de trabalho de business intelligence (BI) e análise.

Apache Spark™ é uma marca registrada ou marca comercial da Apache Software Foundation nos Estados Unidos e/ou em outros países/regiões. O uso dessa marca não implica aprovação por parte da Apache Software Foundation.

Arquitetura

Diagram showing a flow of data from left to right as the steps describe.

Baixe um arquivo do PowerPoint de todos os diagramas neste artigo.

Fluxo de dados

  1. O Azure Data Factory integra dados de sistemas de origem ao data lake corporativo.

  2. Os dados do dispositivo e do sensor também são transmitidos de dispositivos de borda para a nuvem por meio do Hub IoT do Azure. O Azure Stream Analytics processa os dados e os envia para o data lake corporativo.

  3. Os pools SQL sem servidor do Azure Synapse definem um LDW que tem tabelas lógicas e exibições acessíveis por meio do ponto de extremidade sob demanda do pool SQL sem servidor do espaço de trabalho do Azure Synapse.

  4. O Azure Synapse Link para Azure Cosmos DB consulta dados transacionais em tempo real por meio dos pools SQL sem servidor do Azure Synapse. Esses dados se unem aos dados de cold batch e hot streaming do data lake corporativo para criar exibições lógicas.

  5. Relatórios, BI e outros aplicativos de análise acessam dados e exibições LDW usando o ponto de extremidade SQL sem servidor do espaço de trabalho do Azure Synapse.

    Observação

    O ponto de extremidade SQL sem servidor do espaço de trabalho do Azure Synapse pode ser acessado de qualquer ferramenta ou serviço que ofereça suporte a conexões TDS (Tabular Data Stream) com o SQL Server.

Componentes

Detalhes do cenário

Usando um LDW com pools SQL sem servidor do Azure Synapse, você pode unir dados de lote frio, dados de fluxo ativo e dados transacionais ao vivo em uma única consulta T-SQL ou definição de exibição.

Essa solução evita a movimentação de dados por meio de pipelines complexos, caros e propensos a latência de extração, transformação e carga (ETL). O conceito LDW é semelhante a um data lakehouse, mas o LDW com o Azure Synapse Analytics inclui suporte para processamento analítico/de transação híbrida (HTAP). O HTAP usa pools SQL sem servidor do Azure Synapse para consultar dados OLTP armazenados no Azure Cosmos DB.

Um LDW do Azure Synapse Analytics é baseado em pools SQL sem servidor que estão disponíveis com todos os espaços de trabalho do Azure Synapse. Uma versão aprimorada da função OPENROWSET permite que pools SQL sem servidor acessem dados no Armazenamento Data Lake.

Esse acesso a dados permite a criação de objetos de banco de dados relacionais, como tabelas e exibições sobre coleções de arquivos de dados que representam entidades lógicas, como produtos, clientes e transações de vendas. As ferramentas de BI que se conectam usando um ponto de extremidade padrão do SQL Server podem consumir essas entidades lógicas como tabelas de dimensões e fatos.

Diagram that shows a side-by-side comparison of the LDW conceptual design, next to an implementation of LDW with Azure Synapse Analytics serverless SQL pool.

A capacidade de acessar armazenamentos de dados transacionais como o Azure Cosmos DB por meio do Azure Synapse Link para Azure Cosmos DB expande esses recursos. O acesso a dados OLTP usando a arquitetura HTAP fornece atualizações instantâneas sem interferir nas transações em tempo real.

Diagram that shows the flow of external data to the reporting layer using Azure Synapse Analytics serverless SQL pool.

Cada espaço de trabalho do Azure Synapse inclui um ponto de extremidade SQL sob demanda. O ponto de extremidade permite que administradores e desenvolvedores do SQL Server usem ambientes familiares para trabalhar com LDWs definidos por pools de SQL sem servidor do Azure Synapse.

A captura de tela a seguir mostra o SQL Server Management Studio (SSMS) conectado a um pool de SQL sem servidor do Azure Synapse.

Screenshot that shows SSMS connected to the Azure Synapse SQL Server endpoint.

Os pools de SQL sem servidor do Azure Synapse oferecem suporte aos seguintes formatos de arquivo:

  • Texto delimitado, como CSV, TSV e TXT
  • JSON
  • Parquet

Os pools SQL sem servidor do Azure Synapse também oferecem suporte ao formato Delta Lake . Esse suporte permite que padrões como enriquecimento no Spark, sirvam com SQL, onde serviços do Apache Spark™, como o Azure Databricks ou pools do Apache Spark no Azure Synapse, projetem dados para criar conjuntos de dados curados no data lake. Em vez de ter que carregar esses conjuntos de dados em um data warehouse físico, você pode definir um LDW sobre o data lake para fornecer a camada de modelo/serviço para relatórios.

Diagram that shows the flow of external data to the reporting layer with Azure Synapse Analytics serverless SQL pool.

O LDW com pools SQL sem servidor do Azure Synapse é uma implementação do padrão Data Lakehouse . Usar o Databricks SQL para implementar um LDW é uma solução alternativa. No entanto, o Databricks SQL não possui o recurso HTAP do Azure Synapse Link para Cosmos DB.

Possíveis casos de uso

Esse padrão não é útil para os seguintes casos:

  • Camada de serviço de data warehouse para BI e outros casos de uso analíticos.
  • Exploração ad-hoc de dados brutos em um data lake.
  • Streaming de dados econômico em um data lake que não requer seus próprios recursos de computação para gravar dados. Uma tabela de banco de dados lógico, exibição ou consulta T-SQL ad-hoc pode acessar os dados instantaneamente a partir do data lake.
  • Acesso instantâneo aos dados transacionais do Azure Cosmos DB para criar pipelines de agregação em tempo real ou ingressar com dados analíticos armazenados no data lake.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas