Migrar o Azure Data Lake Storage do Gen1 para Gen2 usando o portal do Azure

Este artigo mostra como simplificar a migração usando o portal do Azure.

Observação

O Azure Data Lake Storage Gen1 foi desativado. Veja o anúncio da desativação aqui. Os recursos do Data Lake Storage Gen1 não estão mais acessíveis. Se você precisar de assistência especial, entre em contato conosco.

Assista a um vídeo que explica mais sobre isso.

     Capítulos:


  • 00:37 - Introdução

  • 01:16 - Preparando para a migração

  • 07:15 - Copiar migração

  • 17:40 - Cópia vs migração completa

  • 19:43 - Migração completa

  • 33:15 - Pós migração

Antes de começar, leia as diretrizes gerais sobre como migrar do Gen1 para o Gen2 em Diretrizes e padrões de migração do Azure Data Lake Storage.

Sua conta pode não se qualificar para a migração baseada em portal com base em determinadas restrições. Quando o botão Migrar dados não estiver habilitado no portal do Azure para sua conta do Gen1, se você tiver um plano de suporte, envie uma solicitação de suporte. Você também pode falar com os especialistas da comunidade no Microsoft Q&A.

Observação

Para facilitar a leitura, este artigo usa o termo Gen1 para se referir a Azure Data Lake Storage Gen1 e o termo Gen2 para se referir a Azure Data Lake Storage Gen2.

Etapa 1: criar uma conta de armazenamento com funcionalidades do Gen2

O Azure Data Lake Storage Gen2 não é uma conta de armazenamento dedicada ou tipo de serviço. É um conjunto de recursos que você pode obter ao habilitar o recurso de Namespace Hierárquico de uma conta de armazenamento do Azure. Para criar uma conta que tenha funcionalidades do Gen2, consulte como Criar uma conta de armazenamento para usar com o Azure Data Lake Storage Gen2.

Ao criar a conta, certifique-se de definir as configurações com os valores a seguir.

Configuração Valor
Nome da conta de armazenamento Qualquer nome que você quiser. Esse nome não precisa corresponder ao nome da sua conta do Gen1 e pode estar em qualquer assinatura de sua escolha.
Localização A mesma região usada pela conta do Data Lake Storage Gen1
Replicação LRS ou ZRS
Versão mínima do TLS 1.0
NFS v3 Desabilitado
Namespace hierárquico habilitado

Observação

A ferramenta de migração no portal do Azure não migra as configurações da conta. Portanto, depois de criar a conta, você terá que definir manualmente as configurações como criptografia, firewalls de rede e proteção de dados.

Importante

Use uma conta de armazenamento recém-criada e que não tenha histórico de uso. Não migre para uma conta usada anteriormente nem use uma cujos contêineres tenham sido excluídos para esvaziá-la.

Etapa 2: verificar atribuições de função do RBAC (controle de acesso baseado em função) do Azure

Para o Gen2, verifique se a função Proprietário de Dados de Blob de Armazenamento foi atribuída à sua identidade de usuário do Microsoft Entra no escopo da conta de armazenamento, do grupo de recursos pai ou da assinatura.

Para o Gen1, verifique se a função Proprietário foi atribuída à sua identidade do Microsoft Entra no escopo da conta do Gen1, do grupo de recursos pai ou da assinatura.

Etapa 3: migrar cargas de trabalho do Azure Data Lake Analytics

O Azure Data Lake Storage Gen2 não dá suporte ao Azure Data Lake Analytics. O Azure Data Lake Analytics será desativado em 29 de fevereiro de 2024. Se você tentar usar o portal do Azure para migrar uma conta do Azure Data Lake Storage Gen1 usada para o Azure Data Lake Analytics, é possível que você interrompa suas cargas de trabalho no Azure Data Lake Analytics. Primeiro, você deve migrar suas cargas de trabalho de Azure Data Lake Analytics para o Azure Synapse Analytics ou outra plataforma de computação com suporte antes de tentar migrar sua conta do Gen1.

Para obter mais informações, consulte Gerenciar o Azure Data Lake Analytics usando o portal do Azure.

Etapa 4: preparar a conta do Gen1

Nomes de arquivos ou diretórios com apenas espaços ou tabulações, terminando com um ., contendo um :, ou com várias barras em sequência (//) não são compatíveis com o Gen2. Você precisa renomear esses arquivos ou diretórios antes de migrar.

Para obter um melhor desempenho, considere atrasar a migração por pelo menos dez dias a partir do momento da última operação de exclusão. Em uma conta Gen1, os arquivos excluídos se tornam arquivos excluídos temporariamente e o Coletor de Lixo não os removerá de maneira permanente até sete dias, e levará alguns dias extras para processar a limpeza. O tempo necessário para a limpeza dependerá do número de arquivos. Todos os arquivos, incluindo arquivos excluídos temporariamente, são processados durante a migração. Se você aguardar até que o Coletor de Lixo remova permanentemente os arquivos excluídos, o tempo de espera poderá melhorar.

Etapa 5: realizar a migração

Antes de começar, avalie as duas opções de migração abaixo e decida se deseja apenas copiar os dados do Gen1 para o Gen2 (recomendado) ou executar uma migração completa.

Opção 1: copiar somente dados (recomendado). Nesta opção, os dados são copiados do Gen1 para o Gen2. Conforme os dados são copiados, a conta do Gen1 se torna somente leitura. Depois que os dados forem copiados, as contas Gen1 e Gen2 estarão acessíveis. No entanto, você deve atualizar os aplicativos e as cargas de trabalho de computação para usar o novo ponto de extremidade do Gen2.

Opção 2: execute uma migração completa. Nesta opção, os dados são copiados do Gen1 para o Gen2. Depois que os dados forem copiados, todo o tráfego da conta do Gen1 será redirecionado para a conta habilitada para Gen2. As solicitações redirecionadas usam a camada de compatibilidade do Gen1 para traduzir chamadas à API de Gen1 para equivalentes do Gen2. Durante a migração, a conta do Gen1 se torna somente leitura. Após a conclusão da migração, a conta do Gen1 não estará acessível.

Qualquer opção que você escolher, depois de migrar e verificar se todas as cargas de trabalho funcionam conforme o esperado, você pode excluir a conta do Gen1.

Opção 1: Copiar os dados do Gen1 para o Gen2

  1. Entre no portal do Azure para começar.

  2. Localize sua conta do Data Lake Storage Gen1 e exiba a visão geral da conta.

  3. Selecione o botão Migrar dados.

    Screenshot of the button to migrate.

  4. Selecione Copiar dados para uma nova conta Gen2.

    Screenshot of the copy data option.

  5. Dê o consentimento à Microsoft para executar a migração dos dados selecionando a caixa de seleção. Em seguida, selecione o botão Aplicar.

    Screenshot of the checkbox to provide consent.

    Uma barra de progresso aparece junto com uma mensagem de substatus. Você pode usar esses indicadores para medir o progresso da migração. Como o tempo para concluir cada tarefa varia, a barra de progresso não avançará em uma taxa consistente. Por exemplo, a barra de progresso pode avançar rapidamente para 50%, mas depois pode levar um pouco mais de tempo para completar os 50% restantes.

    Screenshot of progress bar when migrating data.

    Importante

    Enquanto seus dados estão sendo migrados, sua conta do Gen1 se torna de somente leitura e sua conta habilitada para o Gen2 está desabilitada. Quando a migração for concluída, você poderá ler e gravar em ambas as contas.

    Você pode interromper a migração a qualquer momento selecionando o botão Parar migração.

    Screenshot of the stop migration option.

Opção 2: Executar uma migração completa

  1. Entre no portal do Azure para começar.

  2. Localize sua conta do Data Lake Storage Gen1 e exiba a visão geral da conta.

  3. Selecione o botão Migrar dados.

    Screenshot of the migrate button.

  4. Selecione Concluir a migração para uma nova conta Gen2.

    Screenshot of the complete migration option.

  5. Dê o consentimento à Microsoft para executar a migração dos dados selecionando a caixa de seleção. Em seguida, selecione o botão Aplicar.

    Screenshot of the consent checkbox.

    Uma barra de progresso aparece junto com uma mensagem de substatus. Você pode usar esses indicadores para medir o progresso da migração. Como o tempo para concluir cada tarefa varia, a barra de progresso não avançará em uma taxa consistente. Por exemplo, a barra de progresso pode avançar rapidamente para 50%, mas depois pode levar um pouco mais de tempo para completar os 50% restantes.

    Screenshot of progress bar when performing a complete migration.

    Importante

    Enquanto seus dados estão sendo migrados, sua conta do Gen1 se torna de somente leitura, e a conta habilitada para o Gen2 está desabilitada.

    Além disso, enquanto o URI do Gen1 está sendo redirecionado, ambas as contas estão desabilitadas.

    Quando a migração for concluída, sua conta Gen1 será desabilitada. Os dados em sua conta Gen1 não estarão acessíveis e serão excluídos após 30 dias. Sua conta Gen2 estará disponível para leituras e gravações.

    Você pode interromper a migração a qualquer momento antes do redirecionamento do URI selecionando o botão Parar migração.

    Screenshot of the migration stop button.

Etapa 6: verificar se a migração foi concluída

Se a migração for concluída com êxito, um contêiner chamado gen1 será criado na conta habilitada para Gen2, e todos os dados da conta do Gen1 serão copiados para esse novo contêiner gen1. Para localizar os dados em um caminho existente em Gen1, você deverá adicionar o prefixo gen1/ ao mesmo caminho para acessá-los em Gen2. Por exemplo, um caminho chamado 'FolderRoot/FolderChild/FileName.csv' em Gen1 estará disponível em 'gen1/FolderRoot/FolderChild/FileName.csv' em Gen2. Os nomes de contêiner não podem ser renomeados em Gen2, portanto, esse contêiner gen1 em Gen2 não pode ser renomeado após a migração. No entanto, os dados podem ser copiados para um novo contêiner em Gen2, se necessário.

Se a migração não for concluída com êxito, será exibida uma mensagem informando que a migração está paralisada devido a incompatibilidades. Se você quiser assistência com a próxima etapa, entre em contato com o Suporte da Microsoft. Essa mensagem poderá aparecer se a conta habilitada para Gen2 tiver sido usada anteriormente ou quando arquivos e diretórios na conta do Gen1 usarem convenções de nomenclatura incompatíveis.

Antes de entrar em contato com o suporte, verifique se você está usando uma conta de armazenamento recém-criada que não tem histórico de uso. Evite migrar para uma conta usada anteriormente ou uma conta cujos contêineres tenham sido excluídos para esvaziá-la. Em sua conta do Gen1, certifique-se de renomear todos os nomes de arquivo ou diretório que contenham apenas espaços ou guias, terminem com um ., contenham um : ou contenham várias barras (//).

Etapa 7: migrar cargas de trabalho e aplicativos

  1. Configure serviços nas cargas de trabalho para apontar para o ponto de extremidade do Gen2. Para encontrar links para artigos que podem ajudar você a configurar o Azure Databricks, o HDInsight e outros serviços do Azure e usar o Gen2, confira Serviços do Azure que dão suporte ao Azure Data Lake Storage Gen2.

  2. Atualizar aplicativos para usar APIs do Gen2. Confira estes guias:

    Ambiente Artigo
    Gerenciador de Armazenamento do Azure Usar o Gerenciador de Armazenamento do Azure para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    .NET Usar o .NET para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    Java Usar o Java para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    Python Usar o Python para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    JavaScript (Node.js) Usar o SDK do JavaScript em Node.js para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
    API REST API REST do Azure Data Lake Store
  3. Atualize os scripts para usar cmdlets do PowerShelldo Data Lake Storage Gen2 e comandos do CLI do Azure.

  4. Pesquise referências de URI que contenham a cadeia de caracteres adl:// em arquivos de código ou em notebooks do Databricks, arquivos HQL do Apache Hive ou qualquer outro arquivo usado como parte de suas cargas de trabalho. Substitua essas referências pelo URI Gen2 formatado da sua nova conta de armazenamento. Por exemplo: o URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile pode se tornar abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Camada de compatibilidade do Gen1

Essa camada tenta fornecer compatibilidade do aplicativo entre Gen1 e Gen2 como uma conveniência durante a migração, para que os aplicativos possam continuar usando as APIs do Gen1 para interagir com os dados na conta habilitada para Gen2. Essa camada tem funcionalidade limitada e é recomendável validar as cargas de trabalho com contas de teste se você usar essa abordagem como parte da migração. A camada de compatibilidade é executada no servidor, portanto, não há nada a ser instalado.

Importante

A Microsoft não recomenda esse recurso como uma substituição para migrar suas cargas de trabalho e aplicativos. O suporte para a camada de compatibilidade do Gen1 será encerrado quando o Gen1 for desativado em 29 de fevereiro de 2024.

Para encontrar o número mínimo de problemas com a camada de compatibilidade, verifique se os SDKs do Gen1 usam as seguintes versões (ou superiores).

Idioma Versão do SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

A funcionalidade a seguir não tem suporte na camada de compatibilidade.

  • Opção de API ListStatus para uma entrada ListBefore.

  • A API ListStatus com mais de 4.000 arquivos sem um token de continuação.

  • Codificação de partes para operações de acréscimo.

  • Todas as chamadas à API que usam https://management.azure.com/ como a audiência de token do Microsoft Entra.

  • Nomes de arquivos ou diretórios com apenas espaços ou tabulações, terminando com um ., contendo um :, ou com várias barras em sequência (//).

Perguntas frequentes

Quanto tempo levará a migração?

Dados e metadados são migrados em paralelo. O tempo total necessário para concluir uma migração é igual a qualquer um desses dois processos concluídos por último.

A tabela a seguir mostra a velocidade aproximada de cada tarefa de processamento de migração.

Observação

Essas estimativas de tempo são aproximadas e podem variar. Por exemplo, copiar um grande número de arquivos pequenos pode diminuir o desempenho.

Tarefa de processamento Velocidade
Cópia de dados 9 TB por hora
Validação de dados 9 milhões de arquivos ou pastas por hora
Cópia de metadados 4 milhões de arquivos ou pastas por hora
Processamento de metadados 25 milhões de arquivos ou pastas por hora
Processamento de metadados adicionais (opção de cópia de dados)1 50 milhões de arquivos ou pastas por hora

1 O tempo de processamento de metadados adicionais se aplica somente se você escolher a opção Copiar dados para uma nova conta Gen2. Esse tempo de processamento não se aplica se você escolher a opção Concluir a migração para uma nova conta gen2.

Exemplo: processamento de uma grande quantidade de dados e metadados

Este exemplo pressupõe 300 TB de dados e 200 milhões de itens de dados e metadados.

Tarefa Tempo previsto
Copiar dados 300 TB/9 TB = 33,33 horas
Valide os dados 200 milhões/9 milhões = 22,22 horas
Tempo total de migração de dados 33,33 + 22,2 = 55,55 horas
Copiar metadados 200 milhões/4 milhões = 50 horas
Processamento de metadados 200 milhões/25 milhões = 8 horas
Processamento de metadados adicionais – somente opção de cópia de dados 200 milhões/50 milhões = 4 horas
Tempo total de migração de metadados 50 + 8 + 4 = 62 horas
Tempo total para executar uma migração somente de dados 62 horas
Tempo total para executar uma migração completa 62 - 4 = 58 horas
Exemplo: processamento de uma pequena quantidade de dados e metadados

Este exemplo pressupõe 2 TB de dados e 56 mil itens de dados e metadados.

Tarefa Tempo previsto
Copiar dados (2 TB/9 TB) * 60 minutos = 13,3 minutos
Valide os dados (56.000/9 milhões) * 3.600 segundos = 22,4 segundos
Tempo total de migração de dados 13,3 minutos + 22,4 segundos = aproximadamente 14 minutos
Copiar metadados (56.000/4 milhões) * 3.600 segundos = aproximadamente 51 segundos
Processamento de metadados 56.000/ 25 milhões = 8 segundos
Processamento de metadados adicionais – somente opção de cópia de dados (56.000/50 milhões) * 3.600 segundos = 4 segundos
Tempo total de migração de metadados 51 + 8 + 4 = 63 segundos
Tempo total para executar uma migração somente de dados 14 minutos
Tempo total para executar uma migração completa 14 minutos - 4 segundos = 13 minutos e 56 segundos (aproximadamente 14 minutos)

Quanto custa a migração de dados?

Não há custo para usar a ferramenta de migração baseada em portal, no entanto, você será cobrado pelo uso dos serviços do Azure Data Lake Gen1 e Gen2. Durante a migração de dados, você será cobrado pelo armazenamento dos dados e pelas transações da conta Gen1.

Após a migração, se você escolher a opção que copia apenas os dados, você será cobrado pelo armazenamento dos dados e pelas transações de ambas as contas do Azure Data Lake Gen1 e Gen2. Para evitar ser cobrado pela conta do Gen1, exclua a conta do Gen1 depois de atualizar os aplicativos para apontar para o Gen2. Se optar por executar uma migração completa, você será cobrado apenas pelo armazenamento dos dados e pelas transações da conta habilitada para Gen2.

Verifique se todas as suas contas do Azure Data Lake Analytics foram migradas para o Azure Synapse Analytics ou outra plataforma de computação com suporte. Assim que as contas do Azure Data Lake Analytics forem migradas, tente o consentimento novamente. Se o problema for encontrado posteriormente e você tiver um plano de suporte, envie uma solicitação de suporte. Você também pode falar com os especialistas da comunidade no Microsoft Q&A.

Após a conclusão da migração, posso voltar a usar a conta do Gen1?

Se você usou a Opção 1: copiar dados da Gen1 para a Gen2 mencionados acima, ambas as contas Gen1 e Gen2 estarão disponíveis para leituras e gravações após a migração. No entanto, se você usou a Opção 2: executar uma migração completa, não há suporte para voltar para a conta Gen1. Na Opção 2, após a conclusão da migração, os dados em sua conta Gen1 não estarão acessíveis e serão excluídos após 30 dias. Você pode continuar a visualizar a conta Gen1 no portal do Azure e, quando estiver pronto, poderá excluir a conta Gen1.

Gostaria de habilitar o GRS (armazenamento com redundância geográfica) na conta habilitada para Gen2. Como faço isso?

Depois que a migração for concluída, nas opções "Copiar dados" e "Concluir a migração" é possível alterar a opção de redundância para GRS, desde que você não planeje usar a camada de compatibilidade de aplicativos. A compatibilidade de aplicativos não funcionará em contas que usam redundância GRS.

O Gen1 não tem contêineres, e o Gen2, sim – o que devo esperar?

Quando copiamos os dados para sua conta habilitada para o Gen2, criamos automaticamente um contêiner chamado ' Gen1 '. Em Gen2, os nomes de contêiner não podem ser renomeados e, portanto, os dados de migração posteriores podem ser copiados para o novo contêiner em Gen2, conforme necessário.

O que devo considerar em termos de desempenho de migração?

Quando você copia os dados para sua conta habilitada para Gen2, dois fatores que podem afetar o desempenho são o número de arquivos e a quantidade de metadados que você tem. Por exemplo, muitos arquivos pequenos podem afetar o desempenho da migração.

Haverá suporte para as APIs do Sistema de Arquivos WebHDFS na conta Gen2 após a migração?

Há suporte para as APIs do Sistema de Arquivos WebHDFS do Gen1 no Gen2, mas com determinados desvios, e há suporte apenas para a funcionalidade limitada por meio da camada de compatibilidade. Os clientes devem planejar aproveitar as APIs específicas do Gen2 para melhorar o desempenho e os recursos.

O que acontece com minha conta do Gen1 após a data de desativação?

A conta torna-se inacessível. Você não poderá:

  • Gerenciar a conta

  • Acessar dados na conta

  • Receber atualizações de serviço para APIs Gen1 ou Gen1, SDKs ou ferramentas de cliente

  • Acessar o suporte ao cliente Gen1 online, por telefone ou por email

Consulte Ação necessária: alterne para Azure Data Lake Storage Gen2 até 29 de fevereiro de 2024.

Próximas etapas