Migrar dados Hadoop locais para o Azure Data Lake Storage Gen2 com o WANdisco LiveData Platform for Azure

O WANdisco LiveData Platform for Azure migra petabytes de dados Hadoop locais para sistemas de arquivos do Azure Data Lake Storage Gen2 sem interromper as operações de dados ou exigir tempo de inatividade. As verificações contínuas da plataforma evitam que os dados sejam perdidos, mantendo-os consistentes em ambas as extremidades da transferência, mesmo enquanto sofrem modificações.

A plataforma é composta por dois serviços. O LiveData Migrator para Azure migra dados usados ativamente de ambientes locais para o armazenamento do Azure, e o LiveData Plane for Azure garante que todos os dados modificados ou ingeridos sejam replicados de forma consistente.

Ilustração da visão geral da plataforma de dados em tempo real

Gerencie ambos os serviços usando o portal do Azure e a CLI do Azure. Cada serviço segue o mesmo modelo de faturação com tráfego limitado que todos os outros serviços do Azure: o consumo de dados na LiveData Platform for Azure aparece na fatura mensal do Azure, que fornecerá métricas de utilização.

Ao contrário da migração de dados offline copiando informações estáticas para o Azure Data Box ou usando ferramentas Hadoop como o DistCp, você pode manter a operação completa de seus sistemas de negócios durante a migração online com o WANdisco LiveData for Azure. Mantenha seus ambientes de big data operando mesmo enquanto move seus dados para o Azure.

Principais benefícios do WANdisco LiveData Platform for Azure

O mecanismo de consenso capaz de rede de área ampla do WANdisco LiveData Platform for Azure alcança consistência de dados e realiza replicação de dados em tempo real em escala. Veja o vídeo a seguir para obter mais informações:

Os principais benefícios da plataforma incluem o seguinte:

  • Precisão dos dados: A validação de ponta a ponta dos dados evita a perda de dados e garante que os dados transferidos sejam adequados para uso.

  • Consistência de dados: mantenha os volumes de dados automaticamente consistentes entre ambientes, mesmo quando eles sofrem alterações contínuas.

  • Eficiência de dados: Transfira grandes volumes de dados continuamente com controle total do consumo de largura de banda.

  • Eliminação de tempo de inatividade: crie, modifique, leia e exclua dados livremente com outros aplicativos durante a migração, sem a necessidade de interromper as operações de negócios durante a transferência de dados para o Azure. Continue a operar aplicativos, infraestrutura de análise, trabalhos de ingestão e outros processamentos.

  • Uso simples: use a integração do Azure da plataforma para criar, configurar, agendar e acompanhar o progresso das migrações automatizadas. Além disso, configure a replicação seletiva de dados, metadados do Hive, segurança de dados e confidencialidade, conforme necessário.

Principais recursos do WANdisco LiveData Platform for Azure

As principais características da plataforma incluem o seguinte:

  • Migração de metadados: além dos dados do HDFS, migre metadados (do Hive e de outros armazenamentos) com o LiveData Migrator for Azure.

  • Transferência agendada: use o LiveData Migrator for Azure para controlar e automatizar quando a transferência de dados será iniciada, eliminando a necessidade de migrar manualmente as alterações para os dados.

  • Kerberos: O LiveData Migrator para Azure dá suporte a clusters Kerberizados.

  • Modelos de exclusão: crie regras no LiveData Migrator para Azure para impedir que determinados tamanhos ou nomes de arquivo (definidos usando padrões glob) sejam migrados para o armazenamento de destino. Crie modelos de exclusão no portal do Azure ou com a CLI e aplique-os a qualquer número de migrações.

  • Mapeamentos de caminho: defina caminhos de destino alternativos para sistemas de arquivos de destino específicos, que movem automaticamente os dados transferidos para os diretórios especificados.

  • Gerenciamento de largura de banda: configure a quantidade máxima de largura de banda de rede que o LiveData Migrator para Azure pode usar para evitar o consumo excessivo de largura de banda.

  • Exclusões: defina consultas de modelo que impeçam a migração de arquivos e diretórios que atendam aos critérios, permitindo migrar seletivamente dados do sistema de origem.

  • Métricas: exiba detalhes sobre a transferência de dados no LiveData Migrator para Azure, como arquivos transferidos ao longo do tempo, caminhos excluídos, itens que não conseguiram transferir e muito mais.

    LiveData

Migre big data mais rapidamente sem riscos

O primeiro serviço incluído no WANdisco LiveData Platform for Azure é o LiveData Migrator for Azure, que migra dados de ambientes locais para o Armazenamento do Azure. Depois de implantar o LiveData Migrator em seu cluster Hadoop local, ele criará automaticamente a melhor configuração para seu sistema de arquivos. A partir daí, forneça os detalhes do Kerberos para o sistema. O LiveData Migrator para Azure estará pronto para migrar dados para o Armazenamento do Azure.

LiveData Migrator para arquitetura do Azure

Antes de começar com o LiveData Migrator para Azure, revise esses pré-requisitos.

Para executar uma migração:

  1. Na CLI do Azure:

    • Registre-se para o provedor de recursos WANdisco na CLI do Azure executando az provider register --namespace Wandisco.Fusion --consent-to-permissions.
    • Aceite os termos de faturamento medido da Plataforma LiveData executando az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>.
  2. Implante uma instância do LiveData Migrator do portal do Azure em seu cluster Hadoop local. (Não é necessário fazer alterações ou reiniciar o cluster.)

    Criar uma instância do LiveData Migrator

    Nota

    O WANdisco LiveData Migrator para Azure oferece a opção de criar um cluster de teste Hadoop.

  3. Configure os detalhes do Kerberos, se aplicável.

  4. Defina a conta de armazenamento habilitada para Gen2 do Azure Data Lake Storage de destino.

    Criar um destino LiveData Migrator

  5. Defina o local dos dados que você deseja migrar, por exemplo: /user/hive/warehouse.

    Criar uma migração do LiveData Migrator

  6. Inicie a migração.

Monitore seu progresso de migração por meio de ferramentas padrão do Azure, incluindo a CLI do Azure e o portal do Azure.

Replicar dados bidirecionalmente sob alteração ativa com o LiveData Plane for Azure

O segundo serviço incluído na Plataforma LiveData é o LiveData Plane for Azure. O LiveData Plane usa o mecanismo de coordenação do WANdisco para manter os dados consistentes em muitos clusters Hadoop locais e no Armazenamento do Azure, aplicando de forma inteligente as alterações aos dados em todos os sistemas, removendo o risco de conflitos de dados em diferentes pontos de uso.

Plano LiveData para Arquitetura do Azure

Após a migração inicial, mantenha seus dados consistentes com o LiveData Plane for Azure:

  1. Implante o LiveData Plane para Azure local e no Azure, a partir do portal do Azure. Não são necessárias alterações na aplicação.

  2. Configure regras de replicação que abranjam os locais de dados que você deseja manter consistentes, por exemplo: /user/contoso/sales/region/WA.

  3. Execute aplicativos que acessam e modificam dados em qualquer local, conforme necessário.

O LiveData Plane for Azure replica consistentemente as alterações de dados em todos os ambientes sem impacto significativo na operação do cluster ou no desempenho do aplicativo.

Test drive ou Trial

Na página LiveData Platform for Azure's Marketplace, você tem duas opções:

  • O botão Obter agora inicia o serviço na sua subscrição. A partir daí, você pode usar seu próprio cluster Hadoop ou cluster de avaliação do WANdisco.

  • Selecione Test Drive para testar o LiveData Migrator para Azure em um ambiente pré-configurado e hospedado para você. Isso permite que você experimente o LiveData Migrator para Azure antes de adicioná-lo à sua assinatura, sem qualquer custo ou risco para seus dados.

Passos Seguintes

Consulte também