Este exemplo de carga de trabalho mostra várias maneiras pelas quais as pequenas empresas (SMBs) podem modernizar os armazenamentos de dados herdados e explorar ferramentas e recursos de big data, sem estender demais os orçamentos e conjuntos de habilidades atuais. Estas soluções completas de armazenamento de dados do Azure integram-se facilmente com ferramentas como o Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics e outras tecnologias da Microsoft.
Arquitetura
Transfira um ficheiro do Visio desta arquitetura.
Os armazéns de dados SMB herdados podem conter vários tipos de dados:
- Dados não estruturados, como documentos e gráficos
- Dados semiestruturados, como logs, CSVs, JSON e arquivos XML
- Dados relacionais estruturados, incluindo bancos de dados que usam procedimentos armazenados para atividades de extração-transformação-carga/extração-carga-transformação (ETL/ELT)
Fluxo de dados
O fluxo de dados a seguir demonstra a ingestão do tipo de dados escolhido:
Os pipelines do Azure Synapse Analytics ingerem os data warehouses herdados no Azure.
Os pipelines orquestram o fluxo de bancos de dados herdados migrados ou parcialmente refatorados e pacotes SSIS no Banco de Dados SQL do Azure. Essa abordagem de elevação e mudança é mais rápida de implementar e oferece uma transição suave de uma solução SQL local para uma eventual plataforma como serviço (PaaS) do Azure. Você pode modernizar os bancos de dados incrementalmente após a elevação e o turno.
Os pipelines também podem passar dados não estruturados, semiestruturados e estruturados para o Armazenamento Azure Data Lake para armazenamento centralizado e análise com outras fontes. Use essa abordagem quando a fusão de dados fornecer mais benefícios comerciais do que simplesmente reformular os dados.
As fontes de dados do Microsoft Dynamics podem ser usadas para criar painéis de BI centralizados em conjuntos de dados aumentados usando as ferramentas de análise Synapse Serverless. Você pode trazer os dados fundidos e processados de volta para o Dynamics e o Power BI para análise adicional.
Os dados em tempo real de fontes de streaming também podem entrar no sistema por meio dos Hubs de Eventos do Azure. Para clientes com requisitos de painel em tempo real, o Azure Stream Analytics pode analisar esses dados imediatamente.
Os dados também podem entrar no Data Lake centralizado para análise, armazenamento e emissão de relatórios adicionais.
As ferramentas de análise sem servidor estão disponíveis no espaço de trabalho do Azure Synapse Analytics. Essas ferramentas usam pool SQL sem servidor ou recursos de computação do Apache Spark para processar os dados no Data Lake Storage Gen2. Os pools sem servidor estão disponíveis sob demanda e não exigem recursos provisionados.
Os pools sem servidor são ideais para:
- Explorações ad hoc de ciência de dados em formato T-SQL.
- Prototipagem antecipada para entidades de armazém de dados.
- Definir modos de exibição que os consumidores podem usar, por exemplo, no Power BI, para cenários que podem tolerar atraso de desempenho.
O Azure Synapse está totalmente integrado com potenciais consumidores dos seus conjuntos de dados fundidos, como o Azure Machine Learning. Outros consumidores podem incluir Power Apps, Azure Logic Apps, aplicativos do Azure Functions e aplicativos Web do Serviço de Aplicativo do Azure.
Componentes
O Azure Synapse Analytics é um serviço de análise que combina integração de dados, armazenamento de dados corporativos e análise de big data. Nesta solução:
- Um Espaço de Trabalho Sinapse do Azure promove a colaboração entre engenheiros de dados, cientistas de dados, analistas de dados e profissionais de business intelligence (BI).
- Os pipelines do Azure Synapse orquestram e ingerem dados no Banco de Dados SQL e no Data Lake Storage Gen2.
- Os pools SQL sem servidor do Azure Synapse analisam dados não estruturados e semiestruturados no Data Lake Storage Gen2 sob demanda.
- Os pools do Apache Spark sem servidor do Azure Synapse fazem explorações de código primeiro no Data Lake Storage Gen2 com linguagens Spark como Spark SQL, pySpark e Scala.
O Banco de Dados SQL do Azure é um serviço de banco de dados relacional, escalável e inteligente criado para a nuvem. Nesta solução, o Banco de dados SQL armazena o data warehouse corporativo e executa atividades ETL/ELT que usam procedimentos armazenados.
Os Hubs de Eventos do Azure são uma plataforma de streaming de dados em tempo real e um serviço de ingestão de eventos. Os Hubs de Eventos podem ingerir dados de qualquer lugar e integram-se perfeitamente com os serviços de dados do Azure.
O Azure Stream Analytics é um serviço de análise sem servidor em tempo real para streaming de dados. O Stream Analytics oferece escalabilidade rápida e elástica, confiabilidade e recuperação de nível empresarial e recursos integrados de aprendizado de máquina.
O Azure Machine Learning é um conjunto de ferramentas para o desenvolvimento de modelos de ciência de dados e gestão do ciclo de vida. O Machine Learning é um exemplo dos serviços do Azure e da Microsoft que podem consumir dados fundidos e processados do Data Lake Storage Gen2.
Alternativas
O Hub IoT do Azure pode substituir ou complementar os Hubs de Eventos . A solução escolhida depende da origem dos dados de streaming e da necessidade de clonagem e comunicação bidirecional com os dispositivos de relatório.
Você pode usar o Azure Data Factory para integração de dados em vez de pipelines do Azure Synapse. A escolha depende de vários fatores:
- Os pipelines do Azure Synapse mantêm o design da solução mais simples e permitem a colaboração dentro de um único espaço de trabalho do Azure Synapse.
- Os pipelines do Azure Synapse não dão suporte à rehospedagem de pacotes SSIS, que está disponível no Azure Data Factory.
- O Synapse Monitor Hub monitora os pipelines do Azure Synapse, enquanto o Azure Monitor pode monitorar o Data Factory.
Para obter mais informações e uma comparação de recursos entre os pipelines do Azure Synapse e o Data Factory, consulte Integração de dados no Azure Synapse Analytics versus Azure Data Factory.
Você pode usar pools SQL dedicados do Synapse Analytics para armazenar dados corporativos, em vez de usar o Banco de dados SQL. Analise os casos de uso e as considerações neste artigo e os recursos relacionados para tomar uma decisão.
Detalhes do cenário
As pequenas e médias empresas (PMEs) enfrentam uma escolha ao modernizar seus armazéns de dados locais para a nuvem. Eles podem adotar ferramentas de big data para extensibilidade futura ou manter soluções tradicionais baseadas em SQL para eficiência de custos, facilidade de manutenção e transição suave.
No entanto, uma abordagem híbrida combina a migração fácil do conjunto de dados existente com a oportunidade de adicionar ferramentas e processos de big data para alguns casos de uso. As fontes de dados baseadas em SQL podem continuar a ser executadas na nuvem e continuar a modernizar-se conforme apropriado.
Este exemplo de carga de trabalho mostra várias maneiras pelas quais as PMEs podem modernizar armazenamentos de dados herdados e explorar ferramentas e recursos de big data, sem estender demais os orçamentos e conjuntos de habilidades atuais. Estas soluções completas de armazenamento de dados do Azure integram-se facilmente com os serviços e ferramentas do Azure e da Microsoft, como o Azure Machine Learning, o Microsoft Power Platform e o Microsoft Dynamics.
Potenciais casos de utilização
Vários cenários podem se beneficiar dessa carga de trabalho:
Migração de um data warehouse relacional local tradicional menor que 1 TB e que usa extensivamente pacotes do SQL Server Integration Services (SSIS) para orquestrar procedimentos armazenados.
Entrelaçar dados existentes do Dynamics ou do Power Platform Dataverse com fontes do Azure Data Lake em lote e em tempo real.
Usando técnicas inovadoras para interagir com dados centralizados do Data Lake Storage Gen2. As técnicas incluem análise sem servidor, mineração de conhecimento, fusão de dados entre domínios e exploração de dados do usuário final.
Criação de empresas de eCommerce para adotar um data warehouse para otimizar suas operações.
Esta solução não é recomendada para:
Implantação greenfield de armazéns de dados estimados em > 1 TB dentro de um ano.
Migração de data warehouses locais com > 1 TB ou projetados para crescer para esse tamanho dentro de um ano.
Considerações
Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.
As considerações a seguir se aplicam a esse cenário.
Disponibilidade
O Banco de dados SQL é um serviço PaaS que pode atender aos seus requisitos de alta disponibilidade (HA) e recuperação de desastres (DR). Certifique-se de escolher o SKU que atenda às suas necessidades. Para obter orientação, consulte Alta disponibilidade para o Banco de Dados SQL do Azure.
Operations
O Banco de dados SQL usa o SQL Server Management Studio (SSMS) para desenvolver e manter artefatos herdados, como procedimentos armazenados.
Otimização de custos
A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.
Veja um exemplo de preços para um cenário de armazenamento de dados SMB na calculadora de preços do Azure. Ajuste os valores para ver como seus requisitos afetam os custos.
O Banco de Dados SQL baseia os custos nas camadas de Computação e Serviço selecionadas e no número de vCores e DTUs (Unidades de Transação de Banco de Dados). O exemplo mostra um único banco de dados com Compute provisionado e oito vCores, com base na suposição de que você precisa executar procedimentos armazenados no Banco de dados SQL.
O preço do Data Lake Storage Gen2 depende da quantidade de dados que você armazena e da frequência com que os usa. O preço de amostra inclui 1 TB de dados armazenados, com outras suposições transacionais. O 1 TB refere-se ao tamanho do data lake, não ao tamanho original do banco de dados herdado.
Os pipelines do Azure Synapse baseiam os custos no número de atividades de pipeline de dados, horas de tempo de execução de integração, tamanho do cluster de fluxo de dados e encargos de execução e operação. Os custos de pipeline aumentam com fontes de dados adicionais e quantidades de dados processados. O exemplo pressupõe uma fonte de dados em lote a cada hora durante 15 minutos em um tempo de execução de integração hospedado pelo Azure.
O pool do Azure Synapse Spark baseia os preços no tamanho do nó, no número de instâncias e no tempo de atividade. O exemplo pressupõe um pequeno nó de computação com cinco horas por semana a 40 horas por mês de utilização.
O pool SQL sem servidor do Azure Synapse baseia os preços em TBs de dados processados. A amostra pressupõe 50 TBs processados por mês. Esta figura refere-se ao tamanho do data lake, não ao tamanho original do banco de dados herdado.
Os Hubs de Eventos faturam com base na camada, nas unidades de taxa de transferência provisionadas e no tráfego de entrada recebido. O exemplo pressupõe uma unidade de taxa de transferência na camada Standard mais de um milhão de eventos por mês.
O Stream Analytics baseia os custos no número de unidades de streaming provisionadas. O exemplo pressupõe uma unidade de streaming usada ao longo do mês.
Contribuidores
Este artigo está sendo atualizado e mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Galina Polyakova - Brasil | Arquiteto de Soluções Cloud Sênior
Próximos passos
- Para obter conteúdo de treinamento e laboratórios, consulte os Caminhos de aprendizado do engenheiro de dados.
- Tutorial: Introdução ao Azure Synapse Analytics
- Criar um único banco de dados - Banco de Dados SQL do Azure
- Criar uma conta de armazenamento para o Azure Data Lake Storage Gen2
- Guia de início rápido dos Hubs de Eventos do Azure - Criar um hub de eventos usando o portal do Azure
- Guia de início rápido - Criar um trabalho do Stream Analytics usando o portal do Azure
- Guia de início rápido: introdução ao Azure Machine Learning