Replique e sincronize dados mainframe para o Azure

Azure Data Factory

Azure Databricks

Este exemplo de arquitetura descreve um plano de implementação para replicar e sincronizar dados durante a modernização para o Azure. Ele discute aspetos técnicos, como armazenamentos de dados, ferramentas e serviços.

Arquitetura

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de Trabalho

Os sistemas mainframe e midrange atualizam bancos de dados de aplicativos locais em intervalos regulares. Para manter a consistência, a solução sincroniza os dados mais recentes com os bancos de dados do Azure. O processo de sincronização envolve as seguintes etapas:

Os pipelines dinâmicos do Azure Data Factory orquestram atividades que vão desde a extração de dados até o carregamento de dados. Você pode agendar atividades de pipeline, iniciá-las manualmente ou acioná-las automaticamente.

Os pipelines agrupam as atividades que executam tarefas. Para extrair dados, o Data Factory cria dinamicamente um pipeline para cada tabela local. Em seguida, você pode usar uma implementação paralela massiva ao replicar dados no Azure. Você também pode configurar a solução para atender às suas necessidades:
- Replicação completa: você replica todo o banco de dados e faz as modificações necessárias nos tipos de dados e campos no banco de dados do Azure de destino.
- Replicação parcial, delta ou incremental: você usa colunas de marca d'água em tabelas de origem para sincronizar as linhas atualizadas com bancos de dados do Azure. Essas colunas contêm uma chave de incremento contínuo ou um carimbo de data/hora que indica a última atualização da tabela.
O Data Factory também usa pipelines para as seguintes tarefas de transformação:
- Conversão de tipo de dados
- Manipulação de dados
- Formatação de dados
- Derivação de coluna
- Achatamento de dados
- Classificação de dados
- Filtragem de dados
Bancos de dados locais como Db2 zOS, Db2 for i e Db2 LUW armazenam os dados do aplicativo.
Um tempo de execução de integração auto-hospedado (SHIR) fornece o ambiente que o Data Factory usa para executar e despachar atividades.
O Azure Data Lake Storage Gen2 e o Azure Blob Storage fornecem um local para preparação de dados. Às vezes, essa etapa é necessária para transformar e mesclar dados de várias fontes.
Para a preparação de dados, o Data Factory usa o Azure Databricks, atividades personalizadas e fluxos de dados de pipeline para transformar dados de forma rápida e eficaz.
O Data Factory carrega dados nos seguintes bancos de dados relacionais e não relacionais do Azure:
- SQL do Azure
- Base de Dados do Azure para PostgreSQL
- Azure Cosmos DB
- Azure Data Lake Storage
- Base de Dados do Azure para MySQL
SQL Server Integration Services (SSIS): essa plataforma pode extrair, transformar e carregar dados.
Ferramentas que não são da Microsoft: quando a solução requer replicação quase em tempo real, você pode usar ferramentas que não sejam da Microsoft.

Componentes

Esta seção descreve outras ferramentas que você pode usar durante a modernização, sincronização e integração de dados.

Ferramentas

Microsoft Service for Distributed Relational Database Architecture (DRDA) é um componente do Host Integration Server (HIS). O Microsoft Service for DRDA é um servidor de aplicativos que os clientes DRDA Application Requester (AR) usam. Exemplos de clientes DRDA AR incluem IBM Db2 para z/OS e Db2 para i5/OS. Esses clientes usam o servidor de aplicativos para converter instruções SQL do DB2 e executá-las no SQL Server.
O Assistente de Migração do SQL Server (SSMA) para DB2 automatiza a migração do DB2 para os serviços de banco de dados da Microsoft. Enquanto é executada em uma máquina virtual (VM), essa ferramenta converte objetos de banco de dados DB2 em objetos de banco de dados do SQL Server e cria esses objetos no SQL Server. Em seguida, o SSMA para DB2 migra dados do DB2 para os seguintes serviços:
- SQL Server 2012
- SQL Server 2014
- SQL Server 2016
- SQL Server 2017 no Windows e Linux
- SQL Server 2019 no Windows e Linux
- Base de Dados SQL do Azure
O Azure Synapse Analytics é um serviço de análise para armazéns de dados e sistemas de big data. Esta ferramenta utiliza tecnologias Spark e tem integração profunda com o Power BI, Azure Machine Learning e outros serviços do Azure.

Integradores de dados

O Data Factory é um serviço híbrido de integração de dados. Você pode usar essa solução totalmente gerenciada e sem servidor para criar, agendar e orquestrar fluxos de trabalho de extração, transformação e carregamento (ETL) e extrair, carregar e transformar fluxos de trabalho ELT .
O Azure Synapse Analytics é um serviço de análise empresarial que acelera o tempo de obtenção de informações em armazéns de dados e sistemas de big data. O Azure Synapse Analytics reúne o melhor das seguintes tecnologias e serviços:
- Tecnologias SQL, que você usa no armazenamento de dados corporativo.
- Tecnologias Spark, que você usa para big data.
- Azure Data Explorer, que você usa para análises de log e séries temporais.
- Azure Pipelines, que você usa para integração de dados e fluxos de trabalho ETL e ELT.
- Integração profunda com outros serviços do Azure, como Power BI, Azure Cosmos DB e Machine Learning.
O SSIS é uma plataforma para a criação de soluções de integração e transformação de dados em nível empresarial. Você pode usar o SSIS para gerenciar, replicar, limpar e minerar dados.
O Azure Databricks é uma plataforma de análise de dados. Ele é baseado no sistema de processamento distribuído de código aberto Apache Spark e é otimizado para a plataforma de nuvem do Azure. Em um fluxo de trabalho de análise, o Azure Databricks lê dados de várias fontes e usa o Spark para fornecer informações.

Armazenamento de dados

O Banco de Dados SQL faz parte da família SQL do Azure e foi criado para a nuvem. Este serviço oferece os benefícios de uma plataforma como serviço (PaaS) totalmente gerenciada e perene. O Banco de dados SQL também fornece recursos automatizados alimentados por IA que otimizam o desempenho e a durabilidade. As opções de computação sem servidor e armazenamento Hyperscale dimensionam automaticamente os recursos sob demanda.
A Instância Gerenciada SQL do Azure faz parte do portfólio de serviços SQL do Azure. Este serviço de banco de dados em nuvem inteligente e escalável combina a mais ampla compatibilidade do mecanismo do SQL Server com todos os benefícios de um PaaS totalmente gerenciado e perene. Com a Instância Gerenciada SQL, você pode modernizar aplicativos existentes em escala.
O SQL Server em Máquinas Virtuais do Azure fornece uma maneira de elevar e deslocar cargas de trabalho do SQL Server para a nuvem com 100% de compatibilidade de código. Como parte da família SQL do Azure, o SQL Server em Máquinas Virtuais do Azure oferece o desempenho, a segurança e a análise combinados do SQL Server com a flexibilidade e a conectividade híbrida do Azure. Use o SQL Server em Máquinas Virtuais do Azure para migrar aplicativos existentes ou criar novos aplicativos. Você também pode acessar as atualizações e versões mais recentes do SQL Server, incluindo o SQL Server 2019.
O Banco de Dados do Azure para PostgreSQL é um serviço de banco de dados relacional totalmente gerenciado baseado na edição da comunidade do mecanismo de banco de dados PostgreSQL de código aberto. Use este serviço para se concentrar na inovação de aplicativos em vez do gerenciamento de banco de dados. Você também pode dimensionar sua carga de trabalho de forma rápida e fácil.
O Azure Cosmos DB é um banco de dados multimodelo distribuído globalmente. Use o Azure Cosmos DB para garantir que suas soluções possam dimensionar de forma elástica e independente a taxa de transferência e o armazenamento em qualquer número de regiões geográficas. Este serviço de banco de dados NoSQL totalmente gerenciado garante latências de um dígito e milissegundos no percentil noventa e nono em qualquer lugar do mundo.
O Data Lake Storage é um repositório de armazenamento que contém uma grande quantidade de dados em seu formato nativo bruto. Os armazenamentos de data lake são otimizados para dimensionamento para terabytes e petabytes de dados. Os dados normalmente vêm de várias fontes heterogêneas e podem ser estruturados, semiestruturados ou não estruturados. O Data Lake Storage Gen2 combina os recursos do Data Lake Storage Gen1 com o Blob Storage. Esta solução de data lake de última geração fornece semântica do sistema de arquivos, segurança em nível de arquivo e escala. Ele também oferece os recursos de armazenamento hierárquico, alta disponibilidade e recuperação de desastres do Blob Storage.
O Banco de Dados do Azure para MySQL é um serviço de banco de dados relacional totalmente gerenciado baseado na edição da comunidade do mecanismo de banco de dados MySQL de código aberto.
O Blob Storage fornece armazenamento otimizado de objetos na nuvem que gerencia grandes quantidades de dados não estruturados.

Detalhes do cenário

A disponibilidade e a integridade dos dados são essenciais na modernização de mainframe e midrange. As estratégias de priorização de dados ajudam a manter os dados intactos e disponíveis durante a migração para o Azure. Para evitar interrupções durante a modernização, às vezes você precisa replicar dados rapidamente ou manter os dados locais sincronizados com os bancos de dados do Azure.

Especificamente, esta solução abrange:

Extração: conectando-se e extraindo de um banco de dados de origem.
Transformação:
- Preparo: armazena temporariamente os dados em seu formato original e os prepara para a transformação.
- Preparação: transformar e manipular dados usando regras de mapeamento que atendem aos requisitos do banco de dados de destino.
Carregando: Inserindo dados em um banco de dados de destino.

Potenciais casos de utilização

Os cenários de replicação e sincronização de dados que podem se beneficiar dessa solução incluem:

Arquiteturas CQRS (Command Query Responsibility Segregation) que usam o Azure para atender a todos os canais de consulta.
Ambientes que testam aplicativos locais e aplicativos rehospedados ou reprojetados em paralelo.
Sistemas locais com aplicativos fortemente acoplados que exigem remediação ou modernização em fases.

Recomendações

Ao usar o Data Factory para extrair dados, execute etapas para ajustar o desempenho da atividade de cópia.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Tenha estes pontos em mente quando considerar esta arquitetura.

Fiabilidade

A confiabilidade garante que seu aplicativo possa atender aos compromissos que você assume com seus clientes. Para obter mais informações, consulte Lista de verificação de revisão de design para Confiabilidade.

O gerenciamento de infraestrutura, incluindo disponibilidade, é automatizado em bancos de dados do Azure.
Consulte Pool e failover para obter informações sobre o Microsoft Service for DRDA failover protection.
Você pode agrupar o gateway de dados local e o tempo de execução de integração (IR) para fornecer garantias de disponibilidade mais altas.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Lista de verificação de revisão de design parade segurança .

Use grupos de segurança de rede para limitar o acesso apenas ao que cada serviço precisa para funcionar.
Use pontos de extremidade privados para seus serviços de PaaS. Utilize firewalls de serviço acessíveis e inacessíveis através da Internet para complementar a segurança dos seus serviços.
Use identidades gerenciadas para fluxos de dados de componente para componente.
Consulte Planejando e arquitetando soluções usando o Microsoft Service for DRDA para saber mais sobre os tipos de conexões de cliente suportadas pelo Microsoft Service for DRDA. As conexões de cliente afetam a natureza das transações, pooling, failover, autenticação e criptografia em sua rede.

Otimização de Custos

A Otimização de Custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de projeto para Otimização de custos.

Os modelos de preços variam entre os serviços de componentes. Analise os modelos de preços dos serviços de componentes disponíveis para garantir que eles se encaixem no seu orçamento.
Use a calculadora de preços do Azure para estimar o custo de implementação dessa solução.

Excelência Operacional

A Excelência Operacional abrange os processos operacionais que implantam um aplicativo e o mantêm em execução na produção. Para obter mais informações, consulte Lista de verificação de revisão de projeto para o Operational Excellence.

O gerenciamento de infraestrutura, incluindo escalabilidade, é automatizado em bancos de dados do Azure.
Você pode expandir o IR auto-hospedado associando a instância lógica a várias máquinas locais no modo ativo-ativo.

Eficiência de desempenho

Eficiência de desempenho é a capacidade de sua carga de trabalho de atender às demandas colocadas pelos usuários de maneira eficiente. Para obter mais informações, consulte Lista de verificação de revisão de design para Eficiência de desempenho.

Considere o Azure ExpressRoute como uma opção de alta escala se sua implementação usar largura de banda significativa para replicação inicial ou replicação de dados alterada contínua.
Escolha a configuração de RI certa para o seu cenário.

Próximos passos

Entre em contato com o Azure Data Engineering - On-premises Modernization para obter mais informações.
Leia o Guia de migração.

Partilhar via

Replique e sincronize dados mainframe para o Azure

Arquitetura

Fluxo de Trabalho

Componentes

Ferramentas

Integradores de dados

Armazenamento de dados

Detalhes do cenário

Potenciais casos de utilização

Recomendações

Considerações

Fiabilidade

Segurança

Otimização de Custos

Excelência Operacional

Eficiência de desempenho

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Replique e sincronize dados mainframe para o Azure

Arquitetura

Fluxo de Trabalho

Componentes

Ferramentas

Integradores de dados

Armazenamento de dados

Detalhes do cenário

Potenciais casos de utilização

Recomendações

Considerações

Fiabilidade

Segurança

Otimização de Custos

Excelência Operacional

Eficiência de desempenho

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais