Migrar o Armazenamento do Azure Data Lake de Gen1 para Gen2 usando o portal do Azure

Este artigo mostra como simplificar a migração usando o portal do Azure.

Nota

O Azure Data Lake Storage Gen1 foi desativado. Veja o anúncio da aposentadoria aqui. Os recursos do Data Lake Storage Gen1 não estão mais acessíveis. Se necessitar de assistência especial, por favor contacte-nos.

Aqui está um vídeo que fala mais sobre isso.

     Capítulos:


  • 00.37 - Introdução

  • 01:16 - Preparação para a migração

  • 07:15 - Migração de cópias

  • 17:40 - Cópia vs migração completa

  • 19:43 - Migração completa

  • 33:15 - Pós-migração

Antes de começar, leia as orientações gerais sobre como migrar do Gen1 para o Gen2 nas diretrizes e padrões de migração do Armazenamento do Azure Data Lake.

Sua conta pode não se qualificar para migração baseada em portal com base em determinadas restrições. Quando o botão Migrar dados não estiver habilitado no portal do Azure para sua conta Gen1, se você tiver um plano de suporte, poderá registrar uma solicitação de suporte. Você também pode obter respostas de especialistas da comunidade em Perguntas e respostas da Microsoft.

Nota

Para facilitar a leitura, este artigo usa o termo Gen1 para se referir ao Azure Data Lake Storage Gen1 e o termo Gen2 para se referir ao Azure Data Lake Storage Gen2.

Etapa 1: Criar uma conta de armazenamento com recursos Gen2

O Azure Data Lake Storage Gen2 não é uma conta de armazenamento dedicada ou um tipo de serviço. É um conjunto de recursos que você pode obter habilitando o recurso de namespace hierárquico de uma conta de armazenamento do Azure. Para criar uma conta que tenha recursos Gen2, consulte Criar uma conta de armazenamento para usar com o Azure Data Lake Storage Gen2.

Ao criar a conta, certifique-se de definir as configurações com os seguintes valores.

Definição Value
Nome da conta de armazenamento Qualquer nome que você quiser. Este nome não tem de corresponder ao nome da sua conta Gen1 e pode estar em qualquer subscrição à sua escolha.
Location A mesma região usada pela conta do Data Lake Storage Gen1
Replicação LRS ou ZRS
Versão mínima do TLS 1.0
NFS v3 Desativado
Espaço de nomes hierárquico Ativado(a)

Nota

A ferramenta de migração no portal do Azure não move as configurações da conta. Portanto, depois de criar a conta, você terá que configurar manualmente configurações como criptografia, firewalls de rede, proteção de dados.

Importante

Certifique-se de usar uma conta de armazenamento nova e recém-criada que não tenha histórico de uso. Não migre para uma conta usada anteriormente ou use uma conta na qual os contêineres foram excluídos para tornar a conta vazia.

Etapa 2: Verificar as atribuições de função do controle de acesso baseado em função do Azure (Azure RBAC)

Para o Gen2, verifique se a função Proprietário de Dados do Blob de Armazenamento foi atribuída à sua identidade de usuário do Microsoft Entra no escopo da conta de armazenamento, grupo de recursos pai ou assinatura.

Para Gen1, verifique se a função Proprietário foi atribuída à sua identidade do Microsoft Entra no escopo da conta Gen1, grupo de recursos pai ou assinatura.

Etapa 3: Migrar cargas de trabalho do Azure Data Lake Analytics

O Azure Data Lake Storage Gen2 não suporta o Azure Data Lake Analytics. O Azure Data Lake Analytics será desativado em 29 de fevereiro de 2024. Se você tentar usar o portal do Azure para migrar uma conta do Azure Data Lake Storage Gen1 usada para o Azure Data Lake Analytics, é possível que você interrompa suas cargas de trabalho do Azure Data Lake Analytics. Você deve primeiro migrar suas cargas de trabalho do Azure Data Lake Analytics para o Azure Synapse Analytics ou outra plataforma de computação com suporte antes de tentar migrar sua conta Gen1.

Para obter mais informações, consulte Gerenciar o Azure Data Lake Analytics usando o portal do Azure.

Etapa 4: Preparar a conta Gen1

Nomes de arquivos ou diretórios com apenas espaços ou guias, terminando com um ., contendo um :, ou com várias barras consecutivas (//) não são compatíveis com Gen2. Você precisa renomear esses arquivos ou diretórios antes de migrar.

Para obter um melhor desempenho, considere atrasar a migração por pelo menos dez dias a partir do momento da última operação de exclusão. Em uma conta Gen1, os arquivos excluídos se tornam arquivos excluídos suavemente , e o Coletor de Lixo não os removerá permanentemente até sete dias e levará alguns dias extras para processar a limpeza. O tempo necessário para a limpeza dependerá do número de ficheiros. Todos os ficheiros, incluindo ficheiros eliminados por software, são processados durante a migração. Se você esperar até que o Garbage Collector tenha removido permanentemente os arquivos excluídos, seu tempo de espera pode melhorar.

Etapa 5: Executar a migração

Antes de começar, revise as duas opções de migração abaixo e decida se deseja copiar apenas os dados do Gen1 para o Gen2 (recomendado) ou executar uma migração completa.

Opção 1: Copiar apenas dados (recomendado). Nesta opção, os dados são copiados de Gen1 para Gen2. À medida que os dados são copiados, a conta Gen1 torna-se somente leitura. Depois que os dados forem copiados, as contas Gen1 e Gen2 estarão acessíveis. No entanto, você deve atualizar os aplicativos e as cargas de trabalho de computação para usar o novo ponto de extremidade Gen2.

Opção 2: Execute uma migração completa. Nesta opção, os dados são copiados de Gen1 para Gen2. Depois que os dados forem copiados, todo o tráfego da conta Gen1 será redirecionado para a conta habilitada para Gen2. As solicitações redirecionadas usam a camada de compatibilidade Gen1 para traduzir chamadas de API Gen1 para equivalentes Gen2. Durante a migração, a conta Gen1 torna-se somente leitura. Após a conclusão da migração, a conta Gen1 não estará acessível.

Seja qual for a opção escolhida, depois de migrar e verificar se todas as suas cargas de trabalho funcionam conforme o esperado, você pode excluir a conta Gen1.

Opção 1: Copiar dados de Gen1 para Gen2

  1. Entre no portal do Azure para começar.

  2. Localize sua conta do Data Lake Storage Gen1 e exiba a visão geral da conta.

  3. Selecione o botão Migrar dados .

    Screenshot of the button to migrate.

  4. Selecione Copiar dados para uma nova conta Gen2.

    Screenshot of the copy data option.

  5. Dê consentimento à Microsoft para executar a migração de dados marcando a caixa de seleção. Em seguida, selecione o botão Aplicar .

    Screenshot of the checkbox to provide consent.

    Uma barra de progresso é exibida junto com uma mensagem de status secundário. Você pode usar esses indicadores para avaliar o progresso da migração. Como o tempo para concluir cada tarefa varia, a barra de progresso não avança a uma taxa consistente. Por exemplo, a barra de progresso pode avançar rapidamente para 50%, mas depois levar um pouco mais de tempo para concluir os 50% restantes.

    Screenshot of progress bar when migrating data.

    Importante

    Enquanto seus dados estão sendo migrados, sua conta Gen1 se torna somente leitura e sua conta habilitada para Gen2 é desativada. Quando a migração estiver concluída, você poderá ler e gravar em ambas as contas.

    Você pode interromper a migração a qualquer momento selecionando o botão Parar migração .

    Screenshot of the stop migration option.

Opção 2: Executar uma migração completa

  1. Entre no portal do Azure para começar.

  2. Localize sua conta do Data Lake Storage Gen1 e exiba a visão geral da conta.

  3. Selecione o botão Migrar dados .

    Screenshot of the migrate button.

  4. Selecione Concluir migração para uma nova conta Gen2.

    Screenshot of the complete migration option.

  5. Dê consentimento à Microsoft para executar a migração de dados marcando a caixa de seleção. Em seguida, selecione o botão Aplicar .

    Screenshot of the consent checkbox.

    Uma barra de progresso é exibida junto com uma mensagem de status secundário. Você pode usar esses indicadores para avaliar o progresso da migração. Como o tempo para concluir cada tarefa varia, a barra de progresso não avança a uma taxa consistente. Por exemplo, a barra de progresso pode avançar rapidamente para 50%, mas depois levar um pouco mais de tempo para concluir os 50% restantes.

    Screenshot of progress bar when performing a complete migration.

    Importante

    Enquanto seus dados estão sendo migrados, sua conta Gen1 se torna somente leitura e a conta habilitada para Gen2 é desativada.

    Além disso, enquanto o URI Gen1 está sendo redirecionado, ambas as contas são desativadas.

    Quando a migração estiver concluída, sua conta Gen1 será desativada. Os dados da sua conta Gen1 não estarão acessíveis e serão excluídos após 30 dias. Sua conta Gen2 estará disponível para leituras e gravações.

    Você pode interromper a migração a qualquer momento antes que o URI seja redirecionado selecionando o botão Parar migração .

    Screenshot of the migration stop button.

Etapa 6: Verificar se a migração foi concluída

Se a migração for concluída com êxito, um contêiner chamado gen1 será criado na conta habilitada para Gen2 e todos os dados da conta Gen1 serão copiados para esse novo contêiner gen1 . Para encontrar os dados em um caminho que existia no Gen1, você deve adicionar o prefixo gen1/ ao mesmo caminho para acessá-lo no Gen2. Por exemplo, um caminho chamado 'FolderRoot/FolderChild/FileName.csv' no Gen1 estará disponível em 'gen1/FolderRoot/FolderChild/FileName.csv' no Gen2. Os nomes de contêiner não podem ser renomeados no Gen2, portanto, esse contêiner gen1 no Gen2 não pode ser renomeado após a migração. No entanto, os dados podem ser copiados para um novo contêiner no Gen2, se necessário.

Se a migração não for concluída com êxito, será exibida uma mensagem informando que a migração está paralisada devido a incompatibilidades. Se pretender obter ajuda para o passo seguinte, contacte o Suporte da Microsoft. Essa mensagem pode aparecer se a conta habilitada para Gen2 foi usada anteriormente ou quando arquivos e diretórios na conta Gen1 usam convenções de nomenclatura incompatíveis.

Antes de entrar em contato com o suporte, verifique se você está usando uma conta de armazenamento recém-criada que não tenha histórico de uso. Evite migrar para uma conta usada anteriormente ou uma conta na qual os contêineres foram excluídos para tornar a conta vazia. Na sua conta Gen1, certifique-se de renomear qualquer nome de arquivo ou diretório que contenha apenas espaços ou guias, termine com um ., contenha um :ou contenha várias barras (//).

Etapa 7: Migrar cargas de trabalho e aplicativos

  1. Configure serviços em suas cargas de trabalho para apontar para seu ponto de extremidade Gen2. Para obter links para artigos que ajudam a configurar o Azure Databricks, HDInsight e outros serviços do Azure para usar o Gen2, consulte Serviços do Azure que dão suporte ao Azure Data Lake Storage Gen2.

  2. Atualize os aplicativos para usar APIs Gen2. Consulte estes guias:

    Ambiente Artigo
    Explorador de Armazenamento do Azure Usar o Gerenciador de Armazenamento do Azure para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    .NET Usar o .NET para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    Java Usar Java para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    Python Usar Python para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    JavaScript (Node.js) Usar o SDK do JavaScript no Node.js para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    API REST Azure Data Lake Store REST API
  3. Atualize scripts para usar cmdlets do PowerShell do Data Lake Storage Gen2 e comandos da CLI do Azure.

  4. Procure referências de URI que contenham a cadeia de caracteres adl:// em arquivos de código ou em notebooks Databricks, arquivos HQL do Apache Hive ou qualquer outro arquivo usado como parte de suas cargas de trabalho. Substitua essas referências pelo URI formatado em Gen2 da sua nova conta de armazenamento. Por exemplo: o URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile pode se tornar abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Camada de compatibilidade Gen1

Essa camada tenta fornecer compatibilidade de aplicativos entre Gen1 e Gen2 como uma conveniência durante a migração, para que os aplicativos possam continuar usando APIs Gen1 para interagir com dados na conta habilitada para Gen2. Essa camada tem funcionalidade limitada e é aconselhável validar as cargas de trabalho com contas de teste se você usar essa abordagem como parte da migração. A camada de compatibilidade é executada no servidor, portanto, não há nada para instalar.

Importante

A Microsoft não recomenda esse recurso como um substituto para migrar suas cargas de trabalho e aplicativos. O suporte para a camada de compatibilidade Gen1 terminará quando o Gen1 for desativado em 29 de fevereiro de 2024.

Para encontrar o menor número de problemas com a camada de compatibilidade, certifique-se de que seus SDKs Gen1 usem as seguintes versões (ou superiores).

Linguagem Versão do SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

A funcionalidade a seguir não é suportada na camada de compatibilidade.

  • Opção ListStatus API para ListBefore uma entrada.

  • API ListStatus com mais de 4.000 arquivos sem um token de continuação.

  • Codificação de chunk para operações de acréscimo.

  • Todas as chamadas de API que usam https://management.azure.com/ como o público de token do Microsoft Entra.

  • Nomes de ficheiros ou diretórios apenas com espaços ou separadores, terminando com um ., contendo um :, ou com várias barras consecutivas (//).

Perguntas mais frequentes

Quanto tempo demorará a migração?

Os dados e metadados são migrados em paralelo. O tempo total necessário para concluir uma migração é igual ao último desses dois processos.

A tabela a seguir mostra a velocidade aproximada de cada tarefa de processamento de migração.

Nota

Estas estimativas de tempo são aproximadas e podem variar. Por exemplo, copiar um grande número de arquivos pequenos pode diminuir o desempenho.

Tarefa de processamento Velocidade
Cópia de dados 9 TB por hora
Validação de dados 9 milhões de ficheiros ou pastas por hora
Cópia de metadados 4 milhões de ficheiros ou pastas por hora
Processamento de metadados 25 milhões de ficheiros ou pastas por hora
Processamento adicional de metadados (opção de cópia de dados)1 50 milhões de ficheiros ou pastas por hora

1 O tempo de processamento de metadados adicionais aplica-se apenas se escolher a opção Copiar dados para uma nova conta Gen2. Esse tempo de processamento não se aplica se você escolher a opção Concluir migração para uma nova conta gen2.

Exemplo: Processamento de uma grande quantidade de dados e metadados

Este exemplo pressupõe 300 TB de dados e 200 milhões de itens de dados e metadados.

Task Tempo estimado
Copiar dados 300 TB / 9 TB = 33,33 horas
Valide os dados 200 milhões / 9 milhões = 22,22 horas
Tempo total de migração de dados 33,33 + 22,2 = 55,55 horas
Copiar metadados 200 milhões / 4 milhões = 50 horas
Processamento de metadados 200 milhões / 25 milhões = 8 horas
Processamento de metadados adicionais - apenas opção de cópia de dados 200 milhões / 50 milhões = 4 horas
Tempo total de migração de metadados 50 + 8 + 4 = 62 horas
Tempo total para executar uma migração somente de dados 62 horas
Tempo total para executar uma migração completa 62 - 4 = 58 horas
Exemplo: Processamento de uma pequena quantidade de dados e metadados

Este exemplo pressupõe que 2 TB de dados e 56 mil itens de dados e metadados.

Task Tempo estimado
Copiar dados (2 TB / 9 TB) * 60 minutos = 13,3 minutos
Valide os dados (56.000 / 9 milhões) * 3.600 segundos = 22,4 segundos
Tempo total de migração de dados 13,3 minutos + 22,4 segundos = aproximadamente 14 minutos
Copiar metadados (56.000 / 4 milhões) * 3.600 segundos = aproximadamente 51 segundos
Processamento de metadados 56.000/ 25 milhões = 8 segundos
Processamento de metadados adicionais - apenas opção de cópia de dados (56.000 / 50 milhões) * 3.600 segundos = 4 segundos
Tempo total de migração de metadados 51 + 8 + 4 = 63 segundos
Tempo total para executar uma migração somente de dados 14 minutos
Tempo total para executar uma migração completa 14 minutos - 4 segundos = 13 minutos e 56 segundos (aproximadamente 14 minutos)

Quanto custa a migração de dados?

Não há custo para usar a ferramenta de migração baseada em portal, no entanto, você será cobrado pelo uso dos serviços Azure Data Lake Gen1 e Gen2. Durante a migração de dados, você será cobrado pelo armazenamento de dados e transações da conta Gen1.

Após a migração, se você escolher a opção que copia apenas dados, será cobrado pelo armazenamento de dados e pelas transações das contas do Azure Data Lake Gen1 e Gen2. Para evitar ser cobrado pela conta Gen1, exclua a conta Gen1 depois de atualizar seus aplicativos para apontar para Gen2. Se você optar por realizar uma migração completa, será cobrado apenas pelo armazenamento de dados e transações da conta habilitada para Gen2.

Certifique-se de que todas as suas contas do Azure Data lake Analytics foram migradas para o Azure Synapse Analytics ou outra plataforma de computação suportada. Depois que as contas do Azure Data Lake Analytics forem migradas, tente novamente o consentimento. Se vir o problema mais longe e tiver um plano de suporte, pode apresentar um pedido de suporte. Você também pode obter respostas de especialistas da comunidade em Perguntas e respostas da Microsoft.

Após a conclusão da migração, posso voltar a usar a conta Gen1?

Se você usou a Opção 1: Copiar dados do Gen1 para o Gen2 mencionado acima, as contas Gen1 e Gen2 estarão disponíveis para leituras e gravações após a migração. No entanto, se você usou a Opção 2: Executar uma migração completa, não há suporte para voltar para a conta Gen1. Na Opção 2, após a conclusão da migração, os dados da sua conta Gen1 não estarão acessíveis e serão excluídos após 30 dias. Você pode continuar a exibir a conta Gen1 no portal do Azure e, quando estiver pronto, poderá excluir a conta Gen1.

Gostaria de habilitar o armazenamento com redundância geográfica (GRS) na conta habilitada para Gen2. Como posso fazê-lo?

Quando a migração estiver concluída, nas opções "Copiar dados" e "Concluir migração", você poderá alterar a opção de redundância para GRS, desde que não planeje usar a camada de compatibilidade de aplicativos. A compatibilidade de aplicativos não funcionará em contas que usam redundância GRS.

Gen1 não tem contêineres e Gen2 tem - o que devo esperar?

Quando copiamos os dados para sua conta habilitada para Gen2, criamos automaticamente um contêiner chamado 'Gen1'. No Gen2, os nomes de contêiner não podem ser renomeados e, portanto, os dados pós-migração podem ser copiados para um novo contêiner no Gen2, conforme necessário.

O que devo considerar em termos de desempenho de migração?

Quando você copia os dados para sua conta habilitada para Gen2, dois fatores que podem afetar o desempenho são o número de arquivos e a quantidade de metadados que você tem. Por exemplo, muitos arquivos pequenos podem afetar o desempenho da migração.

As APIs do sistema de arquivos WebHDFS serão suportadas na conta Gen2 pós-migração?

As APIs do sistema de arquivos WebHDFS do Gen1 serão suportadas no Gen2, mas com certos desvios, e apenas a funcionalidade limitada é suportada através da camada de compatibilidade. Os clientes devem planejar aproveitar APIs específicas do Gen2 para melhorar o desempenho e os recursos.

O que acontece à minha conta Gen1 após a data da reforma?

A conta torna-se inacessível. Não poderá:

  • Gerir a conta

  • Aceder aos dados na conta

  • Receba atualizações de serviço para APIs, SDKs ou ferramentas de cliente Gen1 ou Gen1

  • Aceda ao apoio ao cliente Gen1 online, por telefone ou por e-mail

Consulte Ação necessária: Mudar para o Azure Data Lake Storage Gen2 até 29 de fevereiro de 2024.

Próximos passos