Ferramentas para migração do armazém de dados Teradata para o Azure Synapse Analytics

Este artigo é a parte seis de uma série de sete partes que fornece orientações sobre como migrar do Teradata para o Azure Synapse Analytics. O foco deste artigo são as melhores práticas para a Microsoft e ferramentas de terceiros.

Ferramentas de migração do armazém de dados

Ao migrar o seu armazém de dados existente para Azure Synapse, beneficia de:

  • Uma base de dados analítica globalmente segura, dimensionável, de baixo custo, nativa da cloud, pay as you use.

  • O rico ecossistema analítico da Microsoft que existe no Azure. Este ecossistema consiste em tecnologias para ajudar a modernizar o armazém de dados assim que for migrado e expandir as suas capacidades analíticas para impulsionar um novo valor.

Várias ferramentas da Microsoft e de parceiros de terceiros podem ajudá-lo a migrar o seu armazém de dados existente para Azure Synapse. Este artigo aborda os seguintes tipos de ferramentas:

  • Ferramentas de migração de dados e bases de dados da Microsoft.

  • Ferramentas de automatização de armazém de dados de terceiros para automatizar e documentar a migração para Azure Synapse.

  • Ferramentas de migração de armazém de dados de terceiros para migrar esquemas e dados para Azure Synapse.

  • Ferramentas de terceiros para colmatar as diferenças de SQL entre o DBMS do armazém de dados existente e o Azure Synapse.

Ferramentas de migração de dados da Microsoft

A Microsoft oferece várias ferramentas para o ajudar a migrar o seu armazém de dados existente para Azure Synapse, tais como:

  • Azure Data Factory.

  • Serviços Microsoft para transferência de dados físicos.

  • Serviços Microsoft para ingestão de dados.

As secções seguintes abordam estas ferramentas mais detalhadamente.

Microsoft Azure Data Factory

O Data Factory é um serviço de integração de dados híbrido totalmente gerido e pay as you use para processamento de ETL e ELT altamente dimensionável. Utiliza o Apache Spark para processar e analisar dados em paralelo e dentro da memória para maximizar o débito.

Dica

O Data Factory permite-lhe criar pipelines de integração de dados dimensionáveis sem código.

Os conectores do Data Factory suportam ligações a origens de dados e bases de dados externas e incluem modelos para tarefas comuns de integração de dados. Uma IU visual baseada no browser permite que os não programadores criem e executem pipelines para ingerir, transformar e carregar dados. Os programadores mais experientes podem incorporar código personalizado, como programas Python.

Dica

O Data Factory permite o desenvolvimento colaborativo entre profissionais empresariais e de TI.

O Data Factory também é uma ferramenta de orquestração e é a melhor ferramenta da Microsoft para automatizar o processo de migração ponto a ponto. A automatização reduz o risco, o esforço e o tempo de migração e torna o processo de migração facilmente repetível. O diagrama seguinte mostra um fluxo de dados de mapeamento no Data Factory.

Captura de ecrã a mostrar um exemplo de um fluxo de dados de mapeamento do Data Factory.

A captura de ecrã seguinte mostra um fluxo de dados de wrangling no Data Factory.

Captura de ecrã a mostrar um exemplo de fluxos de dados de wrangling do Data Factory.

No Data Factory, pode desenvolver processos ETL e ELT simples ou abrangentes sem codificação ou manutenção com apenas alguns cliques. Os processos ETL/ELT ingerem, movem, preparam, transformam e processam os seus dados. Pode criar e gerir agendamentos e acionadores no Data Factory para criar um ambiente automatizado de integração e carregamento de dados. No Data Factory, pode definir, gerir e agendar processos de carregamento de dados em massa do PolyBase.

Dica

O Data Factory inclui ferramentas para ajudar a migrar os seus dados e todo o armazém de dados para o Azure.

Pode utilizar o Data Factory para implementar e gerir um ambiente híbrido com dados no local, cloud, transmissão em fluxo e SaaS de forma segura e consistente. Os dados SaaS podem ser provenientes de aplicações como o Salesforce.

Os fluxos de dados de wrangling são uma nova capacidade no Data Factory. Esta capacidade abre o Data Factory aos utilizadores empresariais que pretendem detetar, explorar e preparar dados visualmente em escala sem escrever código. Os fluxos de dados wrangling oferecem preparação de dados self-service, semelhante aos fluxos de dados do Microsoft Excel, Power Query e Microsoft Power BI. Os utilizadores empresariais podem preparar e integrar dados através de uma IU de estilo folha de cálculo com opções de transformação pendentes.

O Data Factory é a abordagem recomendada para implementar a integração de dados e os processos ETL/ELT no ambiente Azure Synapse, especialmente se quiser refatorizar processos legados existentes.

Serviços Microsoft para transferência de dados físicos

As secções seguintes abordam uma variedade de produtos e serviços que a Microsoft oferece para ajudar os clientes com a transferência de dados.

Azure ExpressRoute

O Azure ExpressRoute cria ligações privadas entre datacenters do Azure e infraestrutura no seu local ou num ambiente de colocação. As ligações do ExpressRoute não passam pela Internet pública e oferecem mais fiabilidade, velocidades mais rápidas e latências mais baixas do que as ligações típicas à Internet. Em alguns casos, pode obter benefícios significativos em termos de custos ao utilizar ligações do ExpressRoute para transferir dados entre sistemas no local e o Azure.

AzCopy

O AzCopy é um utilitário de linha de comandos que copia ficheiros para Armazenamento de Blobs do Azure através de uma ligação à Internet padrão. Num projeto de migração de armazém, pode utilizar o AzCopy para carregar ficheiros de texto extraídos, comprimidos e delimitados antes de os carregar para Azure Synapse com o PolyBase. O AzCopy pode carregar ficheiros individuais, seleções de ficheiros ou pastas de ficheiros. Se os ficheiros exportados estiverem no formato Parquet, utilize um leitor parquet nativo.

Azure Data Box

O Azure Data Box é um serviço Microsoft que lhe fornece um dispositivo de armazenamento físico proprietário para o qual pode copiar dados de migração. Em seguida, envia o dispositivo para um datacenter do Azure para carregamento de dados para o armazenamento na cloud. Este serviço pode ser rentável para grandes volumes de dados, como dezenas ou centenas de terabytes, ou onde a largura de banda de rede não está prontamente disponível. Normalmente, o Azure Data Box é utilizado para uma grande carga de dados históricos pontuais para Azure Synapse.

Azure Data Box Gateway

O Azure Data Box Gateway é um dispositivo de gateway de armazenamento na cloud virtualizado que reside no seu local e envia as suas imagens, multimédia e outros dados para o Azure. Utilize o Data Box Gateway para tarefas de migração pontuais ou carregamentos de dados incrementais contínuos.

Serviços Microsoft para ingestão de dados

As secções seguintes abordam os produtos e serviços que a Microsoft oferece para ajudar os clientes com a ingestão de dados.

COPY INTO

A instrução COPY INTO fornece a maior flexibilidade para a ingestão de dados de débito elevado em Azure Synapse. Para obter mais informações sobre COPY INTO as capacidades, veja COPY (Transact-SQL).

PolyBase

O PolyBase é o método mais rápido e dimensionável para a carga de dados em massa em Azure Synapse. O PolyBase utiliza a arquitetura de processamento paralelo em massa (MPP) de Azure Synapse para o carregamento paralelo de dados para alcançar o débito mais rápido. O PolyBase pode ler dados de ficheiros simples no Armazenamento de Blobs do Azure ou diretamente a partir de origens de dados externas e outras bases de dados relacionais através de conectores.

Dica

O PolyBase pode carregar dados em paralelo de Armazenamento de Blobs do Azure para Azure Synapse.

O PolyBase também pode ler diretamente a partir de ficheiros comprimidos com gzip para reduzir o volume físico de dados durante um processo de carga. O PolyBase suporta formatos de dados populares, como texto delimitado, ORC e Parquet.

Dica

Pode invocar o PolyBase a partir do Data Factory como parte de um pipeline de migração.

O PolyBase está totalmente integrado no Data Factory para suportar o desenvolvimento rápido de processos ETL/ELT de carregamento de dados. Pode agendar processos de carregamento de dados através de uma IU visual para uma produtividade mais elevada e menos erros do que o código escrito à mão. A Microsoft recomenda o PolyBase para ingestão de dados em Azure Synapse, especialmente para ingestão de dados de grande volume.

O PolyBase utiliza CREATE TABLE AS ou INSERT...SELECT instruções para carregar dados. CREATE TABLE AS minimiza o registo para obter o débito mais elevado. O formato de entrada mais eficiente para a carga de dados é os ficheiros de texto delimitados comprimidos. Para obter o débito máximo, divida ficheiros de entrada grandes em múltiplos ficheiros menores e carregue-os em paralelo. Para o carregamento mais rápido para uma tabela de teste, defina a tabela de destino como HEAP tipo e utilize a distribuição round robin.

O PolyBase tem algumas limitações, requer que o comprimento da linha de dados seja inferior a 1 megabyte e não suporta formatos aninhados de largura fixa, como JSON e XML.

Parceiros da Microsoft para migrações teradata

Os parceiros da Microsoft oferecem ferramentas, serviços e conhecimentos especializados para o ajudar a migrar a sua plataforma legada do armazém de dados no local para Azure Synapse.

Passos seguintes

Para saber mais sobre a implementação de armazéns de dados modernos, veja o próximo artigo desta série: Beyond Teradata migration (Além da migração teradata), implemente um armazém de dados moderno no Microsoft Azure.