Data warehouses modernos para pequenas ou médias empresas

Azure Data Lake

Banco de Dados SQL do Azure

Microsoft Fabric

Este artigo descreve maneiras pelas quais pequenas ou médias empresas podem migrar e modernizar armazenamentos de dados herdados dentro de seus orçamentos atuais e conjunto de habilidades. Ele mostra como explorar progressivamente as ferramentas e funcionalidades de Big Data. Essas soluções de armazenagem de dados se integram ao Azure Machine Learning, ao Foundry Tools, ao Microsoft Power Platform, ao Dynamics 365 e a outras tecnologias da Microsoft. Essas soluções fornecem um ponto de entrada inicial para o Microsoft Fabric, que é uma plataforma de dados SaaS (software como serviço) gerenciada que pode se expandir conforme suas necessidades aumentam.

Esse padrão dá suporte a pequenas ou médias empresas que têm as seguintes características:

Usar o SQL Server no local para soluções de data warehousing abaixo de 1 terabyte (TB)
Empregar ferramentas tradicionais do SQL Server, como o SSIS (SQL Server Integration Services), o SSAS (SQL Server Analysis Services), o SSRS (SQL Server Reporting Services), os procedimentos armazenados comuns do SQL Server e os trabalhos do SQL Server Agent
Usar ferramentas externas de extração, transformação e carregamento (ETL) e extração, carregamento e transformação (ELT)
Confie na replicação por instantâneos para sincronização de dados
Executar operações baseadas em lote e não exigir relatórios em tempo real

Arquitetura simplificada

Diagrama que ilustra uma arquitetura de negócios simplificada de pequeno ou médio porte.

Baixe um arquivo do Visio dessa arquitetura.

Uma oportunidade de modernização conceitual envolve a transição de uma solução herdada de data warehouse para uma combinação do Banco de Dados SQL do Azure, da Instância Gerenciada de SQL do Azure e do Fabric. Essa estratégia garante ampla compatibilidade com o SQL Server tradicional e ferramentas de cliente SQL, como o SQL Server Management Studio (SSMS). Ele também fornece opções de reimplantação para processos existentes e requer um mínimo de capacitação para a equipe de suporte. Essa solução fornece um passo inicial para a modernização abrangente. À medida que o data warehouse cresce e sua equipe obtém conhecimento, você pode progredir para o armazenamento completo de SaaS no Fabric ou adotar uma abordagem lakehouse.

Data warehouses legados para pequenas ou médias empresas podem conter vários tipos de dados:

Dados não estruturados, como documentos e gráficos
Dados semiestruturados, como logs, valores separados por vírgulas (CSV), JSON e arquivos XML
Dados relacionais estruturados, incluindo bancos de dados que usam procedimentos armazenados para atividades ETL e ELT

Arquitetura

Baixe um arquivo do Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior:

Pipelines de dados do Fabric ou do Azure Data Factory ingerem dados transacionais na solução de data warehousing.
- Os pipelines orquestram o fluxo dos bancos de dados legados migrados ou parcialmente refatorados e dos pacotes SSIS para o Banco de Dados SQL ou para a Instância Gerenciada do SQL. Essa abordagem de rehosting fornece uma transição de uma solução SQL local para um futuro ambiente SaaS Fabric. Você pode modernizar os bancos de dados incrementalmente após a migração inicial.
- Os pipelines podem mover dados não estruturados, semiestruturados e estruturados para o Azure Data Lake Storage para armazenamento centralizado e análise entre fontes. Use essa abordagem ao combinar dados de várias fontes fornece mais valor comercial do que migrar os dados para uma nova plataforma.
Use dados do Dynamics 365 para criar painéis centralizados de BI (business intelligence) usando ferramentas de análise sem servidor do Fabric em conjuntos de dados enriquecidos. Você pode ingerir dados do Dynamics 365 no Data Lake Storage ou vincular seu ambiente do Dataverse diretamente ao Fabric usando um atalho do Dynamics 365 no OneLake. Você pode gravar os resultados da análise de volta no Dynamics 365 ou continuar a análise no Fabric.
Os Hubs de Eventos do Azure ou outras soluções de streaming transmitem dados em tempo real para o sistema. O Fabric Real-Time Intelligence fornece análise imediata para dar suporte a painéis em tempo real.
Os atalhos do Data Lake Storage trazem os dados para o Fabric OneLake para análise, armazenamento e relatórios. Essa abordagem analisa os dados em vigor sem movê-los e os disponibiliza para consumidores downstream.
O Fabric fornece ferramentas de análise serverless sob demanda, como o endpoint de análises SQL e o Apache Spark, sem a necessidade de recursos provisionados. Essas ferramentas dão suporte às seguintes atividades:
- Atividades ETL e ELT em dados do OneLake
- Servindo a camada de ouro da arquitetura de medalhão para relatórios do Power BI por meio do recurso DirectLake
- Explorações de ciência de dados improvisadas em T-SQL ou Python
- Criação antecipada de protótipos para entidades de data warehouse

O Fabric se integra aos consumidores de seus conjuntos de dados de várias fontes, incluindo relatórios front-end do Power BI, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions e aplicativos Web do Serviço de Aplicativo do Azure.

Componentes

O Fabric é um serviço de análise que combina engenharia de dados, data warehousing, ciência de dados e recursos de BI e dados em tempo real. Nessa arquitetura, os recursos de engenharia de dados do Fabric fornecem uma plataforma colaborativa para engenheiros de dados, cientistas de dados, analistas de dados e profissionais de BI. O Fabric usa mecanismos de computação sem servidor para gerar insights que dão suporte à tomada de decisões de negócios.
O Banco de Dados SQL e a Instância Gerenciada de SQL são serviços de banco de dados relacional baseado em nuvem. Nessa arquitetura, esses serviços hospedam o data warehouse corporativo e executam atividades ETL e ELT usando procedimentos armazenados ou pacotes externos (SSIS). O Banco de Dados SQL e a Instância Gerenciada de SQL são ambientes de PaaS (plataforma como serviço) que você pode usar para atender aos requisitos de alta disponibilidade e recuperação de desastre. Escolha um SKU que atenda aos seus requisitos. Para obter mais informações, consulte Alta disponibilidade para o Banco de Dados SQL e alta disponibilidade para a Instância Gerenciada de SQL.
Os Hubs de Eventos são uma plataforma de streaming de dados em tempo real e um serviço de ingestão de eventos. Nessa arquitetura, os Hubs de Eventos se integram aos serviços de dados do Azure para ingerir dados de streaming de várias fontes no Data Lake Storage para análise e relatórios. Os Hubs de Eventos também podem transmitir dados diretamente para o Real-Time Intelligence.
O Data Lake Storage é um repositório centralizado baseado em nuvem que armazena dados estruturados e não estruturados. Nessa arquitetura, o Data Lake Storage pode armazenar dados de streaming arquivados e cópias de dados do Dynamics 365.

Alternativas

Você pode usar o Hub IoT do Azure para substituir ou complementar os Hubs de Eventos. Escolha sua solução com base na fonte dos seus dados de streaming e se você precisa de clonagem e comunicação bidirecional com os dispositivos de relatório.
Você pode usar pipelines de dados do Fabric em vez de pipelines do Data Factory para integração de dados. Sua decisão depende de vários fatores. Para obter mais informações, consulte Diferenças entre o Azure Data Factory e o Fabric Data Factory.
Você pode usar o Fabric Data Warehouse em vez do Banco de Dados SQL ou da Instância Gerenciada de SQL para armazenar dados corporativos. Este artigo prioriza o TTM (tempo de comercialização) para clientes que desejam modernizar seus data warehouses. Para obter mais informações, consulte as opções de armazenamento de dados do Fabric.

Detalhes do cenário

Pequenas ou médias empresas que modernizam data warehouses locais para a nuvem podem escolher entre duas abordagens. Você pode adotar ferramentas de Big Data para escalabilidade futura ou usar soluções tradicionais baseadas em SQL para eficiência de custo e uma transição previsível. Uma abordagem híbrida permite migrar dados existentes usando ferramentas modernas e recursos de IA. Você pode manter as fontes de dados baseadas em SQL em execução na nuvem e modernizá-las incrementalmente.

Este artigo descreve como pequenas ou médias empresas podem modernizar armazenamentos de dados herdados e adotar ferramentas de Big Data, mantendo-se dentro de orçamentos e conjuntos de habilidades existentes. Essas soluções de data warehousing do Azure se integram aos serviços do Azure e da Microsoft, incluindo Ferramentas de Fundação, Dynamics 365 e Power Platform.

Possíveis casos de uso

Faça a migração de um data warehouse relacional local tradicional com menos de 1 TB e use pacotes de SSIS para orquestrar procedimentos armazenados.
Combine dados do Dynamics 365 ou do Dataverse com dados em lote e em tempo real do Data Lake Storage.
Use técnicas inovadoras para interagir com dados centralizados do Data Lake Storage. Essas técnicas incluem análise sem servidor, mineração de conhecimento, fusão de dados entre domínios e exploração de dados de autoatendimento usando o Copilot no Fabric.
Permitir que as empresas de comércio eletrônico adotem o armazenamento de dados na nuvem para otimização operacional.

Não recomendamos essa solução para os seguintes cenários:

Implantações de data warehouse em projetos Greenfield. Para este cenário, consulte Greenfield lakehouse no Fabric.
Data warehouses locais com 1 TB ou mais ou que atingem esse tamanho dentro de um ano. A maioria das organizações adota soluções especializadas de data warehousing para data warehouses desse tamanho. Para esses cenários, consulte alternativas de replatformação.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.

Fiabilidade

A confiabilidade ajuda a garantir que seu aplicativo possa cumprir os compromissos assumidos com seus clientes. Para obter mais informações, consulte Lista de verificação de revisão de design para confiabilidade.

Você e a Microsoft compartilham a responsabilidade pela confiabilidade da maioria dos serviços do Azure. A Microsoft fornece recursos para dar suporte à resiliência e recuperação. Você deve entender como esses recursos funcionam em cada serviço que você usa e selecionar as configurações que atendem aos seus objetivos de negócios e metas de tempo de atividade. Examine a documentação específica do serviço para selecionar configurações que atendam aos seus objetivos de continuidade de negócios e recuperação de desastres.

Otimização de custos

A Otimização de Custos concentra-se em maneiras de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte a lista de verificação de revisão de design para Otimização de Custos.

A calculadora de preços do Azure permite modificar valores para entender como seus requisitos específicos afetam os custos. Consulte um exemplo de preços para uma solução de armazenamento de dados para pequenas ou médias empresas.
O preço do Banco de Dados SQL depende da camada de computação, da camada de serviço, do número de vCores e das unidades de transação de banco de dados. O exemplo de preços usa um banco de dados individual com computação provisionada e oito vCores para executar procedimentos armazenados no Banco de Dados SQL. Você pode reduzir custos usando a capacidade reservada e os Benefícios Híbridos do Azure.
Os preços do Data Lake Storage dependem do volume de armazenamento e da frequência de acesso a dados. O exemplo de preços inclui 1 TB de armazenamento de dados e custos de transação associados. O 1 TB representa o tamanho do data lake, não o tamanho original do banco de dados herdado. O Data Lake Storage é um custo de modernização extra além do banco de dados herdado.
O preço do Fabric depende da capacidade do modelo Fabric F ou do modelo Premium por Pessoa. Os recursos sem servidor consomem CPU e memória da capacidade dedicada adquirida. Após a modernização, seus relatórios existentes continuam funcionando conectando-se ao novo data warehouse (Banco de Dados SQL ou Instância Gerenciada de SQL) com seu licenciamento existente. O exemplo de preços inclui o SKU F2 para representar a expansão futura do BI por meio da preparação de dados de autoatendimento, datamarts, Real-Time Intelligence e fluxos de trabalho assistidos por IA. O SKU F2 com reserva de um ano fornece um ponto de entrada econômico. Se você atualmente usa o Power BI Premium ou migrou para F64, talvez não precise de capacidade F extra.
Os preços dos Hubs de Eventos dependem da camada selecionada, das PTUs (unidades de taxa de transferência provisionadas) e do volume de tráfego de entrada. O exemplo de preços pressupõe que uma unidade de processamento no nível Standard manipula mais de um milhão de eventos por mês. Os Hubs de Eventos representam um custo extra de modernização se você adicionar recursos de streaming em tempo real à sua solução.

Colaboradores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Autor principal:

Galina Polyakova | Arquiteto sênior de soluções de nuvem

Outro colaborador:

Bhaskar Sharma | Gerenciador de Programas Sênior

Para ver perfis não públicos no LinkedIn, entre no LinkedIn.

Próximas etapas

Comentários

Esta página foi útil?