Ferramentas para migração de data warehouse do Teradata para o Azure Synapse Analytics

Este artigo é a sexta parte de uma série de sete partes que oferece diretrizes de como fazer a migração do Teradata para o Azure Synapse Analytics. O foco deste artigo são as melhores práticas para ferramentas da Microsoft e de terceiros.

Ferramentas de migração de data warehouse

Ao migrar seu data warehouse existente para o Azure Synapse, você tem como benefício:

  • Um banco de dados analítico globalmente seguro, escalonável, de baixo custo, nativo de nuvem e pago conforme o uso.

  • O ecossistema analítico avançado da Microsoft que existe no Azure. Esse ecossistema consiste em tecnologias que ajudam a modernizar o data warehouse após a migração e amplia suas funcionalidades analíticas para agregar mais valor.

Várias ferramentas da Microsoft e de parceiros podem ajudar você a migrar o data warehouse existente para o Azure Synapse. Este artigo aborda os seguintes tipos de ferramentas:

  • Ferramentas de migração de dados e de bancos de dados da Microsoft.

  • Ferramentas de automação de data warehouse de terceiros para automatizar e documentar a migração para o Azure Synapse.

  • Ferramentas de migração de data warehouse de terceiros para migrar esquemas e dados para o Azure Synapse.

  • Ferramentas de terceiros para eliminar as diferenças de SQL entre o DBMS do data warehouse existente e o Azure Synapse.

Ferramentas de migração de dados da Microsoft

A Microsoft oferece várias ferramentas que ajudam a migrar o data warehouse existente para o Azure Synapse, como:

  • Azure Data Factory.

  • Serviços Microsoft para transferência de dados físicos.

  • Serviços Microsoft para ingestão de dados.

As próxima seções abordam essas ferramentas com mais detalhes.

Microsoft Azure Data Factory

O Data Factory é um serviço de integração de dados híbridos, pago conforme o uso e totalmente gerenciado para o processamento altamente escalonável de ETL e ELT. Ele usa o Apache Spark para processar e analisar dados em paralelo e na memória para maximizar a taxa de transferência.

Dica

O Data Factory permite que você crie pipelines de integração de dados escalonáveis sem código.

Os conectores do Data Factory dão suporte a conexões a fontes de dados e bancos de dados externos e incluem modelos para tarefas comuns de integração de dados. Uma interface do usuário baseada em navegador de front-end visual permite que não programadores criem e executem pipelines para ingerir, transformar e carregar dados. Programadores mais experientes podem incorporar um código personalizado, como programas Python.

Dica

O Data Factory permite o desenvolvimento colaborativo entre profissionais de TI e empresas.

O Data Factory também é uma ferramenta de orquestração e é a melhor ferramenta da Microsoft para automatizar o processo de migração de ponta a ponta. A automação reduz o risco, o esforço e o tempo de migração, além de tornar esse processo facilmente repetível. O diagrama a seguir mostra um fluxo de dados de mapeamento no Data Factory.

Captura de tela mostrando um exemplo de um fluxo de dados de mapeamento do Data Factory.

A próxima captura de tela mostra um fluxo de dados de estruturação no Data Factory.

Captura de tela mostrando um exemplo de fluxos de dados de estruturação do Data Factory.

No Data Factory, você pode desenvolver processos de ETL e ELT simples ou abrangentes, sem codificação nem manutenção e com apenas alguns cliques. Os processos de ETL/ELT ingerem, movem, preparam, transformam e processam os dados. Você pode projetar e gerenciar o agendamento e os gatilhos no Data Factory para criar um ambiente automatizado de integração e carregamento de dados. No Data Factory, você pode definir, gerenciar e agendar processos de carregamento de dados em massa do PolyBase.

Dica

O Data Factory inclui ferramentas que ajudam a migrar os dados e todo o data warehouse para o Azure.

Você pode usar o Data Factory para implementar e gerenciar um ambiente híbrido contendo dados locais, em nuvem, de streaming e de SaaS de maneira segura e consistente. Os dados de SaaS podem vir de aplicativos como o Salesforce.

Os fluxos de dados de estruturação são uma nova funcionalidade no Data Factory. Essa funcionalidade abre o Data Factory para usuários empresariais que desejam descobrir, explorar e preparar dados visualmente em escala sem escrever código. Fluxos de dados de estruturação oferecem preparação de dados por autoatendimento, semelhante aos fluxos de dados do Power Query, do Microsoft Excel ou do Microsoft Power BI. Os usuários empresariais podem preparar e integrar dados por meio de uma interface do usuário no estilo planilha com opções suspensas para transformação.

O Data Factory é a abordagem recomendada para implementar a integração de dados e os processos de ETL/ELT no ambiente do Azure Synapse, principalmente se você quer refatorar os processos herdados existentes.

Serviços Microsoft para transferência de dados físicos

As seções a seguir discutem uma variedade de produtos e serviços que a Microsoft oferece para ajudar os clientes com a transferência de dados.

Azure ExpressRoute

O Azure ExpressRoute cria conexões privadas entre os data centers do Azure e a infraestrutura local ou em um ambiente de colocação. As conexões do ExpressRoute não passam pela Internet pública e oferecem mais confiabilidade, velocidades maiores e latências menores do que conexões típicas pela Internet. Em alguns casos, você obtém benefícios de custo significativos usando conexões do ExpressRoute para transferir dados entre sistemas locais e o Azure.

AzCopy

O AzCopy é um utilitário de linha de comando que copia arquivos para o Armazenamento de Blobs do Azure por meio de uma conexão com a Internet padrão. Em um projeto de migração de warehouse, você pode usar o AzCopy para carregar arquivos de texto extraídos, compactados e delimitados antes de carregá-los para o Azure Synapse usando o PolyBase. O AzCopy pode carregar arquivos individuais, seleções de arquivos ou pastas de arquivos. Se os arquivos exportados estiverem no formato Parquet, use um leitor Parquet nativo.

Azure Data Box

O Azure Data Box é um serviço da Microsoft que fornece um dispositivo de armazenamento físico proprietário para o qual você pode copiar dados de migração. Você então envia o dispositivo para um data center do Azure para o carregamento dos dados no armazenamento em nuvem. Esse serviço pode ser econômico para grandes volumes de dados (por exemplo, dezenas ou centenas de terabytes) ou em casos em que não há largura de banda de rede prontamente disponível. O Azure Data Box normalmente é usado para o carregamento único de dados históricos para o Azure Synapse.

Azure Data Box Gateway

O Azure Data Box Gateway é um dispositivo de gateway de armazenamento em nuvem virtualizado que reside localmente e envia imagens, mídias e outros dados para o Azure. Use o Data Box Gateway para tarefas de migração únicas ou uploads de dados incrementais contínuos.

Serviços Microsoft para ingestão de dados

As seções a seguir discutem os produtos e serviços que a Microsoft oferece para ajudar os clientes com a ingestão de dados.

COPY INTO

A instrução COPY INTO oferece a maior flexibilidade para a ingestão de dados com alta taxa de transferência no Azure Synapse. Para obter mais informações sobre as funcionalidades de COPY INTO, confira COPY (Transact-SQL).

PolyBase

O PolyBase é o método mais rápido e escalonável de carregamento de dados em massa para o Azure Synapse. O PolyBase usa a arquitetura MPP (processamento paralelo maciço) do Azure Synapse para carregamento paralelo de dados a fim de alcançar a taxa de transferência mais rápida. O PolyBase pode ler dados de arquivos simples no Armazenamento de Blobs do Azure ou diretamente de fontes de dados externas e de outros bancos de dados relacionais por meio de conectores.

Dica

O PolyBase pode carregar dados em paralelo do Armazenamento de Blobs do Azure para o Azure Synapse.

O PolyBase também pode ler diretamente arquivos compactados com gzip para reduzir o volume físico de dados durante o processo de carregamento. O PolyBase é compatível com formatos de dados populares, como texto delimitado, ORC e Parquet.

Dica

Você pode invocar o PolyBase no Data Factory como parte de um pipeline de migração.

O PolyBase é fortemente integrado ao Data Factory para dar suporte ao desenvolvimento rápido de processos de ETL/ELT de carregamento de dados. Você pode agendar processos de carregamento de dados por meio de uma interface do usuário visual que proporciona maior produtividade e menos erros do que o código escrito à mão. A Microsoft recomenda o PolyBase para ingestão de dados no Azure Synapse, especialmente para ingestão de dados de alto volume.

O PolyBase usa instruções CREATE TABLE AS ou INSERT...SELECT para carregar dados. CREATE TABLE AS minimiza o registro em log para oferecer a maior taxa de transferência. O formato de entrada mais eficiente para carregamento de dados são os arquivos de texto delimitados compactados. Para obter a taxa de transferência máxima, divida os arquivos de entrada grandes em vários arquivos menores e carregue-os em paralelo. Para o carregamento mais rápido possível em uma tabela de preparo, defina a tabela de destino como tipo HEAP e use a distribuição equilibrada.

O PolyBase tem algumas limitações, requer que o comprimento da linha de dados seja menor que 1 megabyte e não dá suporte a formatos aninhados de largura fixa, como JSON e XML.

Parceiros da Microsoft para migrações do Teradata

Os parceiros da Microsoft oferecem ferramentas, serviços e experiência para ajudá-lo a migrar sua plataforma de data warehouse local herdada para o Azure Synapse.

Próximas etapas

Para saber mais sobre como implementar data warehouses modernos, confira o próximo artigo desta série: Além da migração do Teradata, implementando um data warehouse moderno no Microsoft Azure.