Data warehouse moderno para pequenas e médias empresas

Azure Data Lake
Banco de Dados SQL do Azure
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

Esta carga de trabalho de exemplo mostra várias maneiras pelas quais as pequenas empresas (PMEs) podem modernizar os armazenamentos de dados herdados e explorar ferramentas e recursos de Big Data, sem sobrecarregar os orçamentos e os conjuntos de habilidades atuais. Essas soluções de data warehouse do Azure de ponta a ponta são facilmente integradas ao Azure e aos serviços e ferramentas da Microsoft, como o Azure Machine Learning, o Microsoft Power Platform, o Microsoft Dynamics e outras tecnologias da Microsoft.

Arquitetura

Diagram that shows how SMBs can modernize legacy data stores.

Baixe um Arquivo Visio dessa arquitetura.

Os data warehouses de PME herdados podem conter vários tipos de dados:

  • Dados não estruturados, como documentos e grafos
  • Dados semiestruturados, como logs, CSVs, JSON e arquivos XML
  • Dados relacionais estruturados, incluindo bancos de dados que usam procedimentos armazenados para atividades de ETL/ELT (extract-transform-load/extract-load-transform)

Fluxo de dados

O fluxo de dados a seguir demonstra a ingestão do tipo de dados escolhido:

  1. Os pipelines do Azure Synapse Analytics ingerem os data warehouses herdados no Azure.

    • Os pipelines orquestram o fluxo de bancos de dados herdados migrados ou parcialmente refatorados e pacotes do SSIS no Banco de Dados SQL do Azure. Essa abordagem lift-and-shift é mais rápida de implementar e oferece uma transição sem problemas de uma solução de SQL local para uma PaaS (plataforma como serviço) eventual do Azure. Você pode modernizar os bancos de dados gravativamente após o lift-and-shift.

    • Os pipelines também podem passar dados não estruturados, semiestruturados e estruturados para o Azure Data Lake Storage para armazenamento centralizado e análise com outras fontes. Use essa abordagem quando a fusão de dados fornecer mais benefícios de negócios do que simplesmente a reformulação dos dados.

  2. As fontes de dados do Microsoft Dynamics podem ser usadas para criar painéis centralizados de BI nos conjuntos de dados aumentados, usando as ferramentas de análise Sem Servidor do Synapse. Você pode trazer os dados combinados e processados de volta para o Dynamics e o Power BI para análise posterior.

  3. Os dados em tempo real das fontes de streaming também podem entrar no sistema por meio dos Hubs de Eventos do Azure. Para clientes com requisitos de painel em tempo real, o Azure Stream Analytics pode analisar esses dados imediatamente.

  4. Os dados também podem ser inseridos no Data Lake centralizado para análise, armazenamento e relatório adicionais.

  5. As ferramentas de análise sem servidor estão disponíveis no workspace do Azure Synapse Analytics. Essas ferramentas usam o pool de SQL sem servidor ou as funcionalidades de computação do Apache Spark para processar os dados no Data Lake Storage Gen2. Os pools sem servidor estão disponíveis sob demanda e não exigem recursos provisionados.

    Os pools sem servidor são ideais para:

    • Explorações de ciência de dados ad hoc no formato SQL T.
    • Protótipos iniciais para entidades de data warehouse.
    • Definição de exibições que os consumidores podem usar, por exemplo, no Power BI, para cenários que podem tolerar retardo de desempenho.

O Azure Synapse é totalmente integrado a possíveis consumidores dos conjuntos de dados combinados, como o Azure Machine Learning. Outros consumidores podem incluir o Power Apps, os Aplicativos Lógicos do Azure, os aplicativos do Azure Functions e os aplicativos Web do Serviço de Aplicativo do Azure.

Componentes

  • O Azure Synapse Analytics é um serviço de análise que combina integração de dados, data warehouse corporativo e análise de Big Data. Nesta solução:

  • O Banco de Dados SQL do Azure é um serviço de banco de dados inteligente, escalonável, relacional desenvolvido para a nuvem. Nesta solução, o Banco de Dados SQL mantém o data warehouse corporativo e executa as atividades de ETL/ELT que usam procedimentos armazenados.

  • Hubs de Eventos do Azure é uma plataforma de streaming de dados em tempo real e um serviço de ingestão de eventos. Os Hubs de Eventos podem ingerir dados em qualquer lugar e são perfeitamente integrados aos serviços de dados do Azure.

  • O Azure Stream Analytics é um serviço de análise sem servidor em tempo real para dados de streaming. O Stream Analytics oferece escalabilidade rápida e elástica, confiabilidade e recuperação de nível empresarial e recursos de aprendizado de máquina internos.

  • O Azure Machine Learning é um conjunto de ferramentas para desenvolvimento do modelo de ciência de dados e gerenciamento do ciclo de vida. O Machine Learning é um exemplo do Azure e serviços da Microsoft que podem consumir dados processados e combinados do Data Lake Storage Gen2.

Alternativas

  • O Hub IoT do Azure pode substituir ou complementar os Hubs de Eventos. A solução escolhida depende da origem dos dados de streaming e se você precisa de clonagem e comunicação bidirecional com os dispositivos de relatório.

  • Você pode usar o Azure Data Factory para integração de dados, em vez dos pipelines do Azure Synapse. A escolha depende de vários fatores:

    • Os pipelines do Azure Synapse mantêm o design da solução mais simples e permitem a colaboração em um único workspace do Azure Synapse.
    • Os pipelines do Azure Synapse não são compatíveis com a nova hospedam de pacotes do SSIS, que está disponível no Azure Data Factory.
    • O Hub do Synapse Monitor monitora os pipelines do Azure Synapse, enquanto o Azure Monitor pode monitorar o Data Factory.

    Para obter mais informações e uma comparação de recursos entre os pipelines do Azure Synapse e o Data Factory, confira Integração de dados no Azure Synapse Analytics versus Azure Data Factory.

  • Você pode usar os pools de SQL dedicados do Synapse Analytics para armazenar dados corporativos, em vez de usar o Banco de Dados SQL. Examine os casos de uso e as considerações neste artigo e os recursos relacionados para tomar uma decisão.

Detalhes do cenário

As PMEs (pequenas e médias empresas) se deparam com uma escolha ao modernizar OS data warehouses locais para a nuvem. Elas podem adotar ferramentas de Big Data para obter uma extensibilidade futura ou manter as soluções tradicionais baseadas em SQL para obter economia, facilidade de manutenção e uma transição sem problemas.

No entanto, uma abordagem híbrida combina a migração fácil do patrimônio de dados existente com a oportunidade de adicionar ferramentas e processos de Big Data para alguns casos de uso. As fontes de dados baseadas em SQL podem se manter em execução na nuvem e continuar a se modernizar conforme apropriado.

Esta carga de trabalho de exemplo mostra várias maneiras pelas quais as PMEs podem modernizar os armazenamentos de dados herdados e explorar ferramentas e recursos de Big Data, sem sobrecarregar os orçamentos e os conjuntos de habilidades atuais. Essas soluções de data warehouse do Azure de ponta a ponta são facilmente integradas ao Azure e aos serviços e ferramentas da Microsoft, como o Azure Machine Learning, o Microsoft Power Platform e o Microsoft Dynamics.

Possíveis casos de uso

Vários cenários podem usufruir dessa carga de trabalho:

  • Migração de um data warehouse relacional tradicional local menor que 1 TB e com uso extensivo de pacotes SSIS (SQL Server Integration Services) para orquestrar procedimentos armazenados.

  • Malha de dados existentes do Dynamics ou Power Platform Dataverse com fontes do Azure Data Lake em lotes e em tempo real.

  • Uso de técnicas inovadoras para interagir com os dados centralizados do Data Lake Storage Gen2. As técnicas incluem análise sem servidor, mineração de conhecimento, fusão de dados entre domínios e exploração de dados do usuário final.

  • Configurar empresas de comércio eletrônico para adotar um data warehouse para otimizar suas operações.

Essa solução não é recomendada para:

  • Implantação greenfield de data warehouses estimados em >1 TB no prazo de um ano.

  • Migração de data warehouses locais que são > 1 TB ou criados para aumentar até esse tamanho no prazo de um ano.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

As considerações a seguir são aplicáveis a esse cenário.

Disponibilidade

O Banco de Dados SQL é um serviço de PaaS que pode atender aos requisitos de HA (alta disponibilidade) e DR (recuperação de desastre). Escolha o SKU que atende aos requisitos. Para obter diretrizes, confira Alta disponibilidade para Banco de Dados SQL do Azure.

Operações

O Banco de Dados SQL usa o SSMS (SQL Server Management Studio) para desenvolver e manter artefatos herdados, como os procedimentos armazenados.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Confira um exemplo de preço para um cenário de data warehouse de PME na calculadora de preços do Azure. Ajuste os valores para ver como os requisitos afetam os custos.

  • O Banco de Dados SQL baseia os custos nas camadas de Computação e Serviço selecionadas e no número de vCores e DTUs (Unidades de Transação do Banco de Dados). O exemplo mostra um banco de dados individual com computação provisionada e oito vCores, com base na pressuposição de que você precisa executar procedimentos armazenados no Banco de Dados SQL.

  • O preço do Data Lake Storage Gen2 depende do volume de dados armazenados e da frequência com que os dados são usados. O preço de exemplo inclui 1 TB de dados armazenados, com pressuposições transacionais adicionais. O 1 TB se refere ao tamanho do data lake, não ao tamanho do banco de dados herdado original.

  • Os pipelines do Azure Synapse baseiam os custos no número de atividades de pipeline de dados, nas horas de runtime de integração, no tamanho do cluster de fluxo de dados e nos encargos de execução e operação. Os custos de pipeline aumentam com fontes de dados adicionais e volumes de dados processados. O exemplo pressupõe uma fonte de dados em lotes a cada hora, por 15 minutos, em um runtime de integração hospedado no Azure.

  • O pool do Spark do Azure Synapse baseia o preço no tamanho do nó, no número de instâncias e no tempo de atividade. O exemplo pressupõe um nó de computação pequeno com cinco horas por semana a 40 horas por mês de utilização.

  • O pool de SQL sem servidor do Azure Synapse baseia o preço nos TBs dos dados processados. O exemplo pressupõe 50 TBs processados por mês. Esse valor se refere ao tamanho do data lake, não ao tamanho do banco de dados herdado original.

  • Os Hubs de Eventos faturam com base na camada, nas unidades de produtividade provisionadas e no tráfego de entrada recebido. O exemplo pressupõe uma unidade de produtividade na camada Standard em mais de um milhão de eventos por mês.

  • O Stream Analytics baseia os custos no número de unidades de streaming provisionadas. O exemplo pressupõe uma unidade de streaming usada ao longo do mês.

Colaboradores

Este artigo está sendo atualizado e mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

  • Galina Polyakova | Arquiteta sênior de soluções de nuvem

Próximas etapas