Explorar os armazenamento de dados analíticos

Concluído

Há dois tipos comuns de armazenamento de dados analíticos.

Data warehouses

Diagrama de um data warehouse com um esquema em estrela.

Um data warehouse é um banco de dados relacional no qual os dados são armazenados em um esquema otimizado para análise de dados em vez de cargas de trabalho transacionais. Normalmente, os dados de um armazenamento transacional são transformados em um esquema no qual os valores numéricos são armazenados em tabelas de fatos centrais, que estão relacionadas a uma ou mais tabelas de dimensões que representam entidades pelas quais os dados podem ser agregados. Por exemplo, uma tabela de fatos pode conter dados de pedido de vendas, que podem ser agregados por cliente, produto, loja e dimensões de tempo (permitindo que você, por exemplo, encontre facilmente a receita total mensal de vendas por produto para cada loja). Esse tipo de esquema de tabela de fatos e dimensões é chamado de esquema em estrela; embora geralmente seja estendido para um esquema floco de neve adicionando outras tabelas relacionadas às tabelas de dimensões para representar hierarquias dimensionais (por exemplo, o produto pode estar relacionado a categorias de produtos). Um data warehouse é uma ótima opção quando você tem dados transacionais que podem ser organizados em um esquema estruturado de tabelas e deseja usar o SQL para consultá-los.

Data lakes

Diagrama de um data lake no qual os arquivos são abstraídos por tabelas.

Um data lake é um armazenamento de arquivos, geralmente em um sistema de arquivos distribuído para acesso a dados de alto desempenho. Tecnologias como Spark ou Hadoop geralmente são usadas para processar consultas nos arquivos armazenados e retornar dados para relatórios e análises. Esses sistemas geralmente aplicam uma abordagem de esquema no ato da leitura para definir esquemas tabulares em arquivos de dados semiestruturados no ponto em que os dados são lidos para análise, sem aplicar restrições quando eles são armazenados. Os data lakes são ótimos para dar suporte a uma combinação de dados estruturados, semiestruturados e até mesmo não estruturados que você deseja analisar sem a necessidade de imposição de esquema quando os dados são gravados no repositório.

Abordagens híbridas

Você pode usar uma abordagem híbrida que combina recursos de data lakes e data warehouses em um data lakehouse. Os dados brutos são armazenados como arquivos em um data lake, e os pontos de extremidade de análise SQL do Microsoft Fabric os expõem como tabelas, que podem ser consultadas usando SQL. Quando você cria um Lakehouse com o Microsoft Fabric, um ponto de extremidade de análise SQL é criado automaticamente. Os data lakehouses são uma abordagem relativamente nova em sistemas baseados em Spark e são habilitados por meio de tecnologias como o Delta Lake; que adiciona recursos de armazenamento relacional ao Spark, para que você possa definir tabelas que impõem esquemas e consistência transacional, dão suporte a fontes de dados carregadas em lote e streaming e fornecem uma API de SQL para consulta.

Serviços do Azure para repositórios analíticos

No Azure, há vários serviços que você pode usar para implementar um armazenamento analítico em larga escala, incluindo:

Captura de tela do logotipo do Microsoft Fabric.O Microsoft Fabric é uma solução unificada e completa para análise de dados em larga escala. Ele reúne várias tecnologias e funcionalidades, permitindo que você combine a integridade e a confiabilidade de dados de um data warehouse relacional escalonável e de alto desempenho baseado no SQL Server com a flexibilidade de um data lake e de um Apache Spark de código aberto. Ele também inclui suporte nativo para análise de log e telemetria com o Microsoft Fabric Real-Time Intelligence, bem como pipelines de dados integrados para ingestão de dados e transformação. Cada experiência de produto do Microsoft Fabric tem seu próprio ambiente, por exemplo, o Data Factory Home. Cada Fabric Home exibe os itens que você cria e tem permissão para usar em todos os espaços de trabalho que você acessa. O Microsoft Fabric é uma ótima escolha quando você deseja criar uma solução de análise única e unificada.

O Captura de tela do logotipo do Azure Databricks.Azure Databricks é uma implementação da popular plataforma Databricks no Azure. O Databricks é uma solução abrangente de análise de dados criada com base no Apache Spark e que oferece funcionalidades nativas de SQL, bem como clusters Spark otimizados para carga de trabalho para análise de dados e ciência de dados. O Databricks fornece uma interface interativa do usuário por meio da qual o sistema pode ser gerenciado e os dados podem ser explorados em notebooks interativos. Devido ao seu uso comum em várias plataformas de nuvem, pode ser interessante considerar a utilização do Azure Databricks como seu repositório analítico se quiser aproveitar a experiência já adquirida com essa plataforma, se precisar operar em um ambiente de várias nuvens ou oferecer suporte a uma solução portátil em nuvem.

Observação

Cada um desses serviços pode ser pensado como um armazenamento de dados analíticos, no sentido de que eles fornecem um esquema e uma interface por meio dos quais os dados podem ser consultados. No entanto, em muitos casos, os dados são armazenados em um data lake e o serviço é usado para processar os dados e executar consultas. Algumas soluções podem até combinar o uso desses serviços. Um processo de ingestão de ELT (extração, carregamento e transformação) pode copiar dados para o data lake e, em seguida, usar um desses serviços para transformar os dados e outro para consultá-los. Por exemplo, um pipeline pode usar um notebook em execução no Azure Databricks para processar um grande volume de dados no data lake e, em seguida, carregá-los em tabelas em um Microsoft Fabric Warehouse.