Armazéns de dados modernos para pequenas ou médias empresas

Azure Data Lake

Base de Dados SQL do Azure

Microsoft Fabric

Este artigo descreve formas pelas quais pequenas ou médias empresas podem migrar e modernizar armazenamentos de dados legados dentro dos seus orçamentos e competências atuais. Mostra como explorar progressivamente ferramentas e capacidades de big data. Estas soluções de data warehousing integram-se com Azure Machine Learning, Foundry Tools, Microsoft Power Platform, Dynamics 365 e outras tecnologias da Microsoft. Estas soluções fornecem um ponto de entrada inicial para o Microsoft Fabric, que é uma plataforma de dados de software gerido como serviço (SaaS) que pode expandir-se à medida que crescem as suas necessidades.

Este padrão apoia pequenas ou médias empresas que apresentam as seguintes características:

Use SQL Server local para soluções de data warehousing com menos de 1 terabyte (TB)
Utilize ferramentas tradicionais do SQL Server, como SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), procedimentos armazenados SQL comuns e tarefas do SQL Server Agent.
Utilize ferramentas externas de extração, transformação e carga (ETL) e extração, carga e transformação (ELT)
Confiar na replicação de instantâneos para sincronização de dados
Executa operações baseadas em batch e não exige relatórios em tempo real

Arquitetura simplificada

Diagrama que ilustra uma arquitetura simplificada de pequenas ou médias empresas.

Baixe um arquivo Visio desta arquitetura.

Uma oportunidade conceptual de modernização envolve a transição de uma solução legada de data warehousing para uma combinação de Azure SQL Database, Azure SQL Managed Instance e Fabric. Essa estratégia garante ampla compatibilidade com ferramentas tradicionais do SQL Server e do cliente SQL, como o SQL Server Management Studio (SSMS). Também oferece opções de realojamento para processos existentes e requer pouca atualização de competências para a equipa de suporte. Esta solução representa um primeiro passo para uma modernização abrangente. À medida que o seu data warehouse cresce e a sua equipa ganha especialização, pode avançar para armazenamento SaaS completo em Fabric ou adotar uma abordagem de lakehouse.

Armazéns de dados legados para pequenas ou médias empresas podem conter vários tipos de dados:

Dados não estruturados, como documentos e gráficos
Dados semiestruturados, como logs, valores separados por vírgulas (CSV), JSON e ficheiros XML
Dados relacionais estruturados, incluindo bases de dados que utilizam procedimentos armazenados para atividades ETL e ELT

Arquitetura

Baixe um arquivo Visio desta arquitetura.

Fluxo de dados

O seguinte fluxo de dados corresponde ao diagrama anterior:

Pipelines de dados Fabric ou pipelines do Azure Data Factory ingerem dados transacionais na solução de armazenamento de dados.
- Os pipelines orquestram o fluxo de bases de dados legadas migradas ou parcialmente refatoradas e pacotes SSIS para uma Base de Dados SQL ou uma Instância Gerida SQL. Esta abordagem de realojamento proporciona uma transição de uma solução SQL local para um futuro ambiente Fabric SaaS. Pode modernizar as bases de dados de forma incremental após a migração inicial.
- Os pipelines podem mover dados não estruturados, semiestruturados e estruturados para o Azure Data Lake Storage para armazenamento centralizado e análise entre fontes. Utilizar esta abordagem quando combinar dados de múltiplas fontes proporciona mais valor de negócio do que migrar os dados para uma nova plataforma.
Utilize os dados do Dynamics 365 para construir dashboards de inteligência empresarial (BI) centralizados, utilizando ferramentas de análise sem servidor da Fabric em conjuntos de dados enriquecidos. Pode ingerir dados do Dynamics 365 no Data Lake Storage ou ligar o seu ambiente Dataverse diretamente ao Fabric usando um atalho do Dynamics 365 no OneLake. Podes escrever resultados analíticos de volta no Dynamics 365 ou continuar a análise dentro do Fabric.
Os Azure Event Hubs ou outras soluções de streaming transmitem dados em tempo real para o sistema. O Fabric Real-Time Intelligence fornece análises imediatas para suportar painéis de controlo em tempo real.
Os atalhos do Data Lake Storage trazem os dados para o Fabric OneLake para análise, armazenamento e relatórios. Esta abordagem analisa os dados no local sem os mover e torna-os disponíveis para os consumidores a jusante.
O Fabric fornece ferramentas de análise serverless sob demanda, como o endpoint de análise SQL e o Apache Spark, sem necessidade de recursos provisionados. Estas ferramentas suportam as seguintes atividades:
- Atividades ETL e ELT nos dados do OneLake
- Servir a camada dourada da arquitetura de medalhão para relatórios do Power BI através da funcionalidade DirectLake
- Explorações improvisadas de ciência de dados em T-SQL ou Python
- Prototipagem inicial para entidades de armazém de dados

O Fabric integra-se com os consumidores dos seus conjuntos de dados multifonte, incluindo relatórios front-end Power BI, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions e aplicações web Azure App Service.

Componentes

O Fabric é um serviço de análise que combina engenharia de dados, data warehousing, ciência de dados e recursos de BI e dados em tempo real. Nesta arquitetura, as capacidades de engenharia de dados Fabric fornecem uma plataforma colaborativa para engenheiros de dados, cientistas de dados, analistas de dados e profissionais de BI. O Fabric utiliza motores de computação serverless para gerar insights que apoiam a tomada de decisões empresariais.
O Banco de Dados SQL e a Instância Gerenciada SQL são serviços de banco de dados relacional baseados em nuvem. Nesta arquitetura, estes serviços alojam o data warehouse empresarial e realizam atividades ETL e ELT através de procedimentos armazenados ou pacotes externos (SSIS). O Banco de Dados SQL e a Instância Gerenciada SQL são ambientes de plataforma como serviço (PaaS) que você pode usar para atender aos requisitos de alta disponibilidade e recuperação de desastres. Escolha um SKU que atenda às suas necessidades. Para obter mais informações, consulte Alta disponibilidade para o Banco de dados SQL e Alta disponibilidade para instância gerenciada do SQL.
Os Hubs de Eventos são uma plataforma de streaming de dados em tempo real e um serviço de ingestão de eventos. Nesta arquitetura, o Event Hubs integra-se com os serviços de dados Azure para ingerir dados em streaming de várias fontes para o Data Lake Storage para análise e relatórios. Os Event Hubs também podem transmitir dados diretamente para a Inteligência em Tempo Real.
O Data Lake Storage é um repositório centralizado baseado na cloud que armazena dados estruturados e não estruturados. Nesta arquitetura, o Data Lake Storage pode armazenar dados arquivados em streaming e cópias de dados do Dynamics 365.

Alternativas

Você pode usar o Hub IoT do Azure para substituir ou complementar Hubs de Eventos. Escolha sua solução com base na fonte de seus dados de streaming e se você precisa de clonagem e comunicação bidirecional com os dispositivos de relatório.
Você pode usar pipelines de dados de malha em vez de pipelines de data factory para integração de dados. A sua decisão depende de vários fatores. Para mais informações, consulte Diferenças entre Azure Data Factory e Fabric Data Factory.
Pode usar o Fabric Data Warehouse em vez do SQL Database ou SQL Managed Instance para armazenar dados empresariais. Este artigo prioriza o time to market (TTM) para clientes que querem modernizar os seus armazéns de dados. Para mais informações, consulte as opções de armazenamento de dados Fabric.

Detalhes do cenário

Pequenas ou médias empresas que modernizam data warehouses on-premises para a cloud podem escolher entre duas abordagens. Pode adotar ferramentas de big data para futura escalabilidade ou usar soluções tradicionais baseadas em SQL para eficiência de custos e uma transição previsível. Uma abordagem híbrida permite-lhe migrar dados existentes utilizando ferramentas modernas e capacidades de IA. Pode manter fontes de dados baseadas em SQL a funcionar na cloud e modernizá-las de forma incremental.

Este artigo descreve como pequenas ou médias empresas podem modernizar os armazenamentos de dados antigos e adotar ferramentas de big data, mantendo-se dentro dos orçamentos e competências existentes. Estas soluções de armazenamento de dados Azure integram-se com serviços Azure e Microsoft, incluindo Foundry Tools, Dynamics 365 e Power Platform.

Potenciais casos de utilização

Migre um data warehouse relacional local tradicional com menos de 1 TB e use pacotes SSIS para orquestrar procedimentos armazenados.
Combine dados do Dynamics 365 ou Dataverse com dados em lote e em tempo real do Data Lake Storage.
Utilize técnicas inovadoras para interagir com dados centralizados do Data Lake Storage. Estas técnicas incluem análise sem servidor, mineração de conhecimento, fusão de dados entre domínios e exploração de dados em autoatendimento através do uso do Copilot no Fabric.
Permitir que as empresas de comércio eletrónico adotem armazenamento de dados na nuvem para otimização operacional.

Não recomendamos esta solução para os seguintes cenários:

Implementações de armazém de dados greenfield. Para este cenário, consulte Greenfield lakehouse no Fabric.
Armazéns de dados on-premises com 1 TB ou mais, ou que atinjam esse tamanho dentro de um ano. A maioria das organizações adota soluções especializadas de data warehousing para armazéns de dados deste tamanho. Para estes cenários, veja Alternativas de Replatforming.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.

Reliability

A confiabilidade ajuda a garantir que seu aplicativo possa cumprir os compromissos que você assume com seus clientes. Para obter mais informações, consulte Lista de verificação de revisão de design para confiabilidade.

Você e a Microsoft partilham a responsabilidade pela fiabilidade da maioria dos serviços Azure. A Microsoft oferece capacidades para apoiar a resiliência e a recuperação. Deve compreender como essas capacidades funcionam em cada serviço que utiliza e selecionar as configurações que cumprem os seus objetivos de negócio e de disponibilidade. Consulte a documentação específica do serviço para selecionar configurações que cumpram os seus objetivos de continuidade do negócio e recuperação de desastres.

Otimização de Custos

A Otimização de Custos concentra-se em formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.

O calculador de preços do Azure permite-lhe modificar valores para perceber como os seus requisitos específicos afetam os custos. Veja um exemplo de preços para um cenário de armazenamento de dados para pequenas ou médias empresas.
O preço da base de dados SQL depende do nível de computação, do nível de serviço, do número de vCores e das unidades de transação da base de dados. O exemplo de preços utiliza uma única base de dados com computação provisionada e oito vCores para executar procedimentos armazenados na base de dados SQL. Pode reduzir custos usando capacidade reservada e benefícios híbridos Azure.
A tarifação do Data Lake Storage depende do volume de armazenamento e da frequência de acesso aos dados. A amostra de preços inclui 1 TB de armazenamento de dados e custos de transação associados. Os 1 TB representam o tamanho do data lake, não o tamanho original da base de dados legada. O Armazenamento em Lago de Dados representa um custo adicional de modernização para além da base de dados legada.
O preço do tecido depende do modelo de capacidade F do tecido ou do modelo Premium Per Person. As capacidades serverless consomem CPU e memória da capacidade dedicada comprada. Após a modernização, os seus relatórios existentes continuam a funcionar ligando-se ao novo data warehouse (SQL Database ou SQL Managed Instance) com as suas licenças existentes. A amostra de preços inclui o SKU F2 para representar a futura expansão de BI (Inteligência de Negócios) através da preparação de dados em regime de self-service, datamarts, Inteligência em Tempo Real e workflows assistidos por IA. O SKU F2, com reserva de um ano, oferece um ponto de entrada económico. Se atualmente usas Power BI Premium ou migraste para F64, talvez não precises de capacidade extra de F.
Os preços dos Event Hubs dependem do nível selecionado, das PTUs (unidades de débito provisionadas) e do volume de tráfego de entrada. A amostra de preços assume que uma unidade de throughput no nível Standard gere mais de um milhão de eventos por mês. Os Event Hubs representam um custo adicional de modernização se adicionar funcionalidades de streaming em tempo real à sua solução.

Contribuidores

A Microsoft mantém este artigo. Os seguintes colaboradores escreveram este artigo.

Autor principal:

Galina Polyakova - Brasil | Arquiteto de Soluções Cloud Sênior

Outros contribuidores:

Bhaskar Sharma - Brasil | Gerente de Programa Sênior

Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.

Próximos passos

Comentários

Esta página foi útil?