Partilhar via


Migrar Azure Data Lake Storage de Gen1 para Gen2 com o portal do Azure

Este artigo mostra-lhe como simplificar a migração com o portal do Azure.

Nota

Azure Data Lake Storage Gen1 foi descontinuada. Veja o anúncio de descontinuação aqui. Data Lake Storage Gen1 recursos já não estão acessíveis. Se precisar de assistência especial, contacte-nos.

Eis um vídeo que lhe informa mais sobre o mesmo.

     Capítulos:


  • 00.37 - Introdução

  • 01:16 – Preparação para migração

  • 07:15 - Copiar migração

  • 17:40 - Copiar vs. migração completa

  • 19:43 - Migração completa

  • 33:15 - Pós-migração

Antes de começar, certifique-se de que lê as orientações gerais sobre como migrar da Gen1 para a Gen2 em Azure Data Lake Storage diretrizes e padrões de migração.

A sua conta pode não ser elegível para migração baseada no portal com base em determinadas restrições. Quando o botão Migrar dados não estiver ativado no portal do Azure da sua conta Gen1, se tiver um plano de suporte, pode apresentar um pedido de suporte. Também pode obter respostas de especialistas da comunidade no Microsoft Q&A.

Nota

Para uma leitura mais fácil, este artigo utiliza o termo Gen1 para se referir a Azure Data Lake Storage Gen1 e o termo Gen2 para fazer referência a Azure Data Lake Storage Gen2.

Passo 1: Criar uma conta de armazenamento com capacidades gen2

Azure Data Lake Storage Gen2 não é um tipo de serviço ou conta de armazenamento dedicada. É um conjunto de capacidades que pode obter ao ativar a funcionalidade Espaço de nomes Hierárquico de uma conta de armazenamento do Azure. Para criar uma conta com capacidades gen2, veja Criar uma conta de armazenamento para utilizar com Azure Data Lake Storage Gen2.

À medida que cria a conta, certifique-se de que configura as definições com os seguintes valores.

Definição Valor
Nome da conta de armazenamento Qualquer nome que pretenda. Este nome não tem de corresponder ao nome da sua conta Gen1 e pode estar em qualquer subscrição à sua escolha.
Localização A mesma região utilizada pela conta Data Lake Storage Gen1
Replicação LRS ou ZRS
Versão mínima do TLS 1.0
NFS v3 Desativado
Espaço de nomes hierárquico Ativado

Nota

A ferramenta de migração no portal do Azure não move as definições da conta. Por conseguinte, depois de criar a conta, terá de configurar manualmente definições como encriptação, firewalls de rede, proteção de dados.

Importante

Certifique-se de que utiliza uma conta de armazenamento recentemente criada que não tem histórico de utilização. Não migre para uma conta utilizada anteriormente ou utilize uma conta na qual os contentores tenham sido eliminados para esvaziar a conta.

Passo 2: Verificar atribuições de funções de controlo de acesso baseado em funções do Azure (RBAC do Azure)

Para Gen2, certifique-se de que a função Proprietário de Dados de Blobs de Armazenamento foi atribuída à sua identidade de utilizador Microsoft Entra no âmbito da conta de armazenamento, grupo de recursos principal ou subscrição.

Para a Gen1, certifique-se de que a função Proprietário foi atribuída à sua identidade de Microsoft Entra no âmbito da conta Gen1, grupo de recursos principal ou subscrição.

Passo 3: Migrar cargas de trabalho do Azure Data Lake Analytics

Azure Data Lake Storage Gen2 não suporta Data Lake Analytics do Azure. O Azure Data Lake Analytics será descontinuado a 29 de fevereiro de 2024. Se tentar utilizar o portal do Azure para migrar uma conta do Azure Data Lake Storage Gen1 utilizada para o Azure Data Lake Analytics, é possível que divida as cargas de trabalho do Azure Data Lake Analytics. Primeiro, tem de migrar as cargas de trabalho do Azure Data Lake Analytics para Azure Synapse Analytics ou para outra plataforma de computação suportada antes de tentar migrar a sua conta Gen1.

Para obter mais informações, veja Manage Azure Data Lake Analytics using the portal do Azure (Gerir Data Lake Analytics do Azure com o portal do Azure).

Passo 4: Preparar a conta Gen1

Os nomes de ficheiros ou diretórios com apenas espaços ou separadores, terminando com um ., que contém um :, ou com múltiplas barras reencaminhadas consecutivas (//) não são compatíveis com o Gen2. Tem de mudar o nome destes ficheiros ou diretórios antes de migrar.

Para obter um melhor desempenho, considere adiar a migração durante, pelo menos, dez dias a partir da hora da última operação de eliminação. Numa conta Gen1, os ficheiros eliminados tornam-se ficheiros eliminados de forma recuperável e o Recoletor de Lixo só os removerá permanentemente durante sete dias e demorará alguns dias a processar a limpeza. O tempo necessário para a limpeza dependerá do número de ficheiros. Todos os ficheiros, incluindo ficheiros eliminados de forma recuperável, são processados durante a migração. Se aguardar até que o Recoletor de Lixo remova permanentemente os ficheiros eliminados, o tempo de espera pode melhorar.

Passo 5: efetuar a migração

Antes de começar, reveja as duas opções de migração abaixo e decida se apenas deve copiar dados da Gen1 para a Gen2 (recomendado) ou efetuar uma migração completa.

Opção 1: copiar apenas dados (recomendado). Nesta opção, os dados são copiados de Gen1 para Gen2. À medida que os dados estão a ser copiados, a conta Gen1 torna-se só de leitura. Após a cópia dos dados, as contas Gen1 e Gen2 estarão acessíveis. No entanto, tem de atualizar as aplicações e as cargas de trabalho de computação para utilizar o novo ponto final gen2.

Opção 2: efetuar uma migração completa. Nesta opção, os dados são copiados de Gen1 para Gen2. Depois de os dados serem copiados, todo o tráfego da conta Gen1 será redirecionado para a conta ativada para Gen2. Os pedidos redirecionados utilizam a camada de compatibilidade Gen1 para traduzir chamadas à API Gen1 para equivalentes gen2. Durante a migração, a conta Gen1 torna-se só de leitura. Após a conclusão da migração, a conta Gen1 não estará acessível.

Seja qual for a opção que escolher, depois de migrar e verificar se todas as cargas de trabalho funcionam conforme esperado, pode eliminar a conta Gen1.

Opção 1: Copiar dados da Gen1 para a Gen2

  1. Inicie sessão no portal do Azure para começar.

  2. Localize a sua conta Data Lake Storage Gen1 e apresente a descrição geral da conta.

  3. Selecione o botão Migrar dados .

    Botão para migrar

  4. Selecione Copiar dados para uma nova conta Gen2.

    Opção Copiar dados

  5. Dê consentimento à Microsoft para efetuar a migração de dados ao selecionar a caixa de verificação. Em seguida, selecione o botão Aplicar .

    Caixa de verificação para dar consentimento

    É apresentada uma barra de progresso juntamente com uma mensagem de sub-estado. Pode utilizar estes indicadores para avaliar o progresso da migração. Uma vez que o tempo de conclusão de cada tarefa varia, a barra de progresso não avançará a um ritmo consistente. Por exemplo, a barra de progresso pode avançar rapidamente para 50%, mas, em seguida, demorar um pouco mais de tempo para concluir os restantes 50 por cento.

    Captura de ecrã da barra de progresso ao migrar dados.

    Importante

    Enquanto os seus dados estão a ser migrados, a sua conta Gen1 torna-se só de leitura e a sua conta ativada para Gen2 está desativada. Quando a migração estiver concluída, pode ler e escrever em ambas as contas.

    Pode parar a migração em qualquer altura ao selecionar o botão Parar migração .

    Opção Parar migração

Opção 2: efetuar uma migração completa

  1. Inicie sessão no portal do Azure para começar.

  2. Localize a sua conta Data Lake Storage Gen1 e apresente a descrição geral da conta.

  3. Selecione o botão Migrar dados .

    Botão Migrar

  4. Selecione Concluir migração para uma nova conta Gen2.

    Opção de migração completa

  5. Dê consentimento à Microsoft para efetuar a migração de dados ao selecionar a caixa de verificação. Em seguida, selecione o botão Aplicar .

    Caixa de verificação Consentimento

    É apresentada uma barra de progresso juntamente com uma mensagem de sub-estado. Pode utilizar estes indicadores para medir o progresso da migração. Uma vez que o tempo de conclusão de cada tarefa varia, a barra de progresso não avança a um ritmo consistente. Por exemplo, a barra de progresso pode avançar rapidamente para 50%, mas, em seguida, demorar um pouco mais de tempo para concluir os restantes 50%.

    Captura de ecrã da barra de progresso ao efetuar uma migração completa.

    Importante

    Enquanto os seus dados estão a ser migrados, a sua conta Gen1 torna-se só de leitura e a conta ativada para Gen2 está desativada.

    Além disso, enquanto o URI gen1 está a ser redirecionado, ambas as contas estão desativadas.

    Quando a migração estiver concluída, a sua conta Gen1 será desativada. Os dados na sua conta Gen1 não estarão acessíveis e serão eliminados após 30 dias. A sua conta Gen2 estará disponível para leituras e escritas.

    Pode parar a migração em qualquer altura antes de o URI ser redirecionado ao selecionar o botão Parar migração .

    Botão de paragem de migração

Passo 6: verificar se a migração foi concluída

Se a migração for concluída com êxito, será criado um contentor com o nome gen1 na conta ativada para Gen2 e todos os dados da conta Gen1 serão copiados para este novo contentor gen1 . Para localizar os dados num caminho que existia no Gen1, tem de adicionar o prefixo gen1/ ao mesmo caminho para aceder aos mesmos no Gen2. Por exemplo, um caminho com o nome "FolderRoot/FolderChild/FileName.csv" na Gen1 estará disponível em "gen1/FolderRoot/FolderChild/FileName.csv" no Gen2. Não é possível mudar o nome dos nomes dos contentores no Gen2, pelo que não é possível mudar o nome deste contentor gen1 no Gen2 após a migração. No entanto, os dados podem ser copiados para um novo contentor no Gen2, se necessário.

Se a migração não for concluída com êxito, será apresentada uma mensagem a indicar que a migração está parada devido a incompatibilidades. Se quiser obter assistência para o próximo passo, contacte Suporte da Microsoft. Esta mensagem pode ser apresentada se a conta ativada para Gen2 tiver sido utilizada anteriormente ou quando os ficheiros e diretórios na conta Gen1 utilizarem convenções de nomenclatura incompatíveis.

Antes de contactar o suporte, certifique-se de que está a utilizar uma conta de armazenamento recentemente criada e que não tem histórico de utilização. Evite migrar para uma conta utilizada anteriormente ou para uma conta na qual os contentores tenham sido eliminados para tornar a conta vazia. Na sua conta Gen1, certifique-se de que muda o nome de quaisquer nomes de ficheiros ou diretórios que contenham apenas espaços ou separadores, termine com um ., contenha um :ou contenha várias barras (//).

Passo 7: Migrar cargas de trabalho e aplicações

  1. Configure serviços nas cargas de trabalho para apontar para o ponto final gen2. Para obter ligações para artigos que o ajudam a configurar o Azure Databricks, o HDInsight e outros serviços do Azure para utilizar o Gen2, veja Serviços do Azure que suportam Azure Data Lake Storage Gen2.

  2. Atualize as aplicações para utilizar as APIs Gen2. Veja estes guias:

    Ambiente Artigo
    Explorador de Armazenamento do Azure Utilizar Explorador de Armazenamento do Azure para gerir diretórios e ficheiros no Azure Data Lake Storage Gen2
    .NET Utilizar o .NET para gerir diretórios e ficheiros no Azure Data Lake Storage Gen2
    Java Utilizar Java para gerir diretórios e ficheiros no Azure Data Lake Storage Gen2
    Python Utilizar o Python para gerir diretórios e ficheiros no Azure Data Lake Storage Gen2
    JavaScript (Node.js) Utilizar o JavaScript SDK no Node.js para gerir diretórios e ficheiros no Azure Data Lake Storage Gen2
    API REST Azure Data Lake Store REST API
  3. Atualize scripts para utilizar Data Lake Storage Gen2 cmdlets do PowerShell e comandos da CLI do Azure.

  4. Procure referências de URI que contenham a cadeia adl:// em ficheiros de código ou em blocos de notas do Databricks, ficheiros HQL do Apache Hive ou qualquer outro ficheiro utilizado como parte das suas cargas de trabalho. Substitua estas referências pelo URI formatado gen2 da sua nova conta de armazenamento. Por exemplo: o URI gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile pode tornar-se abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Camada de compatibilidade gen1

Esta camada tenta fornecer compatibilidade de aplicações entre Gen1 e Gen2 como uma conveniência durante a migração, para que as aplicações possam continuar a utilizar APIs Gen1 para interagir com dados na conta ativada para Gen2. Esta camada tem uma funcionalidade limitada e é aconselhável validar as cargas de trabalho com contas de teste se utilizar esta abordagem como parte da migração. A camada de compatibilidade é executada no servidor, pelo que não há nada para instalar.

Importante

A Microsoft não recomenda esta capacidade como substituto para migrar as suas cargas de trabalho e aplicações. O suporte para a camada de compatibilidade Gen1 terminará quando a Gen1 for descontinuada a 29 de fevereiro de 2024.

Para encontrar o menor número de problemas com a camada de compatibilidade, certifique-se de que os SDKs gen1 utilizam as seguintes versões (ou superiores).

Linguagem Versão do SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

A seguinte funcionalidade não é suportada na camada de compatibilidade.

  • ListStatus API option to ListBefore an entry.

  • API ListStatus com mais de 4000 ficheiros sem um token de continuação.

  • Codificação de segmentos para operações de acréscimo.

  • Todas as chamadas à API que utilizem https://management.azure.com/ como público-alvo de tokens Microsoft Entra.

  • Nomes de ficheiros ou diretórios com apenas espaços ou separadores, terminando com um ., que contém um :ou com várias barras// ().

Perguntas mais frequentes

Quanto tempo demorará a migração?

Os dados e metadados são migrados em paralelo. O tempo total necessário para concluir uma migração é igual ao período de conclusão destes dois processos.

A tabela seguinte mostra a velocidade aproximada de cada tarefa de processamento de migração.

Nota

Estas estimativas de tempo são aproximadas e podem variar. Por exemplo, copiar um grande número de ficheiros pequenos pode abrandar o desempenho.

Tarefa de processamento Velocidade
Cópia de dados 9 TB por hora
Validação de dados 9 milhões de ficheiros ou pastas por hora
Cópia de metadados 4 milhões de ficheiros ou pastas por hora
Processamento de metadados 25 milhões de ficheiros ou pastas por hora
Processamento de metadados adicionais (opção de cópia de dados)1 50 milhões de ficheiros ou pastas por hora

1 O tempo adicional de processamento de metadados aplica-se apenas se escolher a opção Copiar dados para uma nova conta Gen2 . Este tempo de processamento não se aplica se escolher a opção Concluir migração para uma nova conta gen2 .

Exemplo: Processar uma grande quantidade de dados e metadados

Este exemplo pressupõe 300 TB de dados e 200 milhões de dados e itens de metadados.

Tarefa Tempo estimado
Copiar dados 300 TB / 9 TB = 33,33 horas
Validar dados 200 milhões/9 milhões = 22,22 horas
Tempo total de migração de dados 33,33 + 22,2 = 55,55 horas
Copiar metadados 200 milhões/4 milhões = 50 horas
Processamento de metadados 200 milhões/25 milhões = 8 horas
Processamento de metadados adicionais – apenas opção de cópia de dados 200 milhões/50 milhões = 4 horas
Tempo total de migração de metadados 50 + 8 + 4 = 62 horas
Tempo total para efetuar uma migração apenas de dados 62 horas
Tempo total para efetuar uma migração completa 62 - 4 = 58 horas
Exemplo: Processar uma pequena quantidade de dados e metadados

Este exemplo pressupõe que 2 TB de dados e 56 mil dados e itens de metadados.

Tarefa Tempo estimado
Copiar dados (2 TB / 9 TB) * 60 minutos = 13,3 minutos
Validar dados (56 000 / 9 milhões) * 3.600 segundos = 22,4 segundos
Tempo total de migração de dados 13,3 minutos + 22,4 segundos = aproximadamente 14 minutos
Copiar metadados (56 000 / 4 milhões) * 3.600 segundos = aproximadamente 51 segundos
Processamento de metadados 56 000/ 25 milhões = 8 segundos
Processamento de metadados adicionais – apenas opção de cópia de dados (56 000 / 50 milhões) * 3.600 segundos = 4 segundos
Tempo total de migração de metadados 51 + 8 + 4 = 63 segundos
Tempo total para efetuar uma migração apenas de dados 14 minutos
Tempo total para efetuar uma migração completa 14 minutos - 4 segundos = 13 minutos e 56 segundos (aproximadamente 14 minutos)

Quanto custa a migração de dados?

Não há custos para utilizar a ferramenta de migração baseada no portal. No entanto, ser-lhe-á faturado a utilização dos serviços do Azure Data Lake Gen1 e Gen2. Durante a migração de dados, ser-lhe-á faturado o armazenamento de dados e as transações da conta Gen1.

Após a migração, se escolher a opção que copia apenas dados, ser-lhe-á faturado o armazenamento de dados e as transações para contas do Azure Data Lake Gen1 e gen2. Para evitar ser faturado para a conta Gen1, elimine a conta Gen1 depois de atualizar as suas aplicações para apontar para Gen2. Se optar por efetuar uma migração completa, será faturado apenas para o armazenamento de dados e transações da conta ativada para Gen2.

Certifique-se de que todas as suas contas do Azure Data lake Analytics são migradas para o Azure Synapse Analytics ou para outra plataforma de computação suportada. Assim que as contas Data Lake Analytics do Azure forem migradas, repita o consentimento. Se vir o problema e tiver um plano de suporte, pode apresentar um pedido de suporte. Também pode obter respostas de especialistas da comunidade no Microsoft Q&A.

Após a conclusão da migração, posso voltar a utilizar a conta Gen1?

Se utilizou a Opção 1: Copiar dados da Gen1 para a Gen2 mencionadas acima, as contas Gen1 e Gen2 estão disponíveis para leituras e escritas após a migração. No entanto, se utilizou a Opção 2: efetuar uma migração completa, o regresso à conta Gen1 não é suportado. Na Opção 2, após a conclusão da migração, os dados na sua conta Gen1 não estarão acessíveis e serão eliminados após 30 dias. Pode continuar a ver a conta Gen1 no portal do Azure e, quando estiver pronto, pode eliminar a conta Gen1.

Gostaria de ativar o Armazenamento georredundante (GRS) na conta ativada para Gen2, como posso fazê-lo?

Assim que a migração estiver concluída, tanto nas opções "Copiar dados" como em "Migração completa", pode avançar e alterar a opção de redundância para GRS, desde que não planeie utilizar a camada de compatibilidade da aplicação. A compatibilidade da aplicação não funcionará em contas que utilizam redundância GRS.

A Gen1 não tem contentores e a Gen2 tem-nos- o que devo esperar?

Quando copiamos os dados para a sua conta ativada para Gen2, criamos automaticamente um contentor com o nome "Gen1". Em Gen2, os nomes de contentor não podem ser mudados e, por conseguinte, os dados pós-migração podem ser copiados para um novo contentor na Gen2, conforme necessário.

O que devo considerar em termos de desempenho da migração?

Quando copia os dados para a sua conta ativada para Gen2, dois fatores que podem afetar o desempenho são o número de ficheiros e a quantidade de metadados que tem. Por exemplo, muitos ficheiros pequenos podem afetar o desempenho da migração.

As APIs do Sistema de Ficheiros WebHDFS serão suportadas na conta Gen2 após a migração?

As APIs do Sistema de Ficheiros WebHDFS da Gen1 serão suportadas em Gen2, mas com determinados desvios e apenas a funcionalidade limitada é suportada através da camada de compatibilidade. Os clientes devem planear tirar partido das APIs específicas da Gen2 para um melhor desempenho e funcionalidades.

O que acontece à minha conta Gen1 após a data de descontinuação?

A conta torna-se inacessível. Não poderá:

  • Gerir a conta

  • Aceder a dados na conta

  • Receber atualizações de serviço para APIs gen1 ou Gen1, SDKs ou ferramentas de cliente

  • Suporte ao cliente do Access Gen1 online, por telefone ou por e-mail

Veja Ação necessária: mude para Azure Data Lake Storage Gen2 até 29 de fevereiro de 2024.

Passos seguintes