Diretrizes e padrões de migração do Armazenamento Azure Data Lake

Artigo
03/09/2023

Você pode migrar seus dados, cargas de trabalho e aplicativos do Azure Data Lake Storage Gen1 para o Azure Data Lake Storage Gen2. Este artigo explica a abordagem de migração recomendada e aborda os diferentes padrões de migração e quando usá-los. Para facilitar a leitura, este artigo usa o termo Gen1 para se referir ao Azure Data Lake Storage Gen1 e o termo Gen2 para se referir ao Azure Data Lake Storage Gen2.

Nota

O Azure Data Lake Storage Gen1 foi desativado. Veja o anúncio da aposentadoria aqui. Os recursos do Data Lake Storage Gen1 não estão mais acessíveis.

O Azure Data Lake Storage Gen2 foi criado no armazenamento de Blobs do Azure e fornece um conjunto de recursos dedicados à análise de big data. O Data Lake Storage Gen2 combina recursos do Azure Data Lake Storage Gen1, como semântica do sistema de arquivos, segurança e escala em nível de diretório e arquivo com recursos de armazenamento hierárquico de baixo custo e alta disponibilidade/recuperação de desastres do armazenamento de Blob do Azure.

Nota

Como Gen1 e Gen2 são serviços diferentes, não há experiência de atualização in-loco. Para simplificar a migração para o Gen2 usando o portal do Azure, consulte Migrar o Armazenamento do Azure Data Lake do Gen1 para o Gen2 usando o portal do Azure.

Abordagem recomendada

Para migrar de Gen1 para Gen2, recomendamos a seguinte abordagem.

Etapa 1: Avaliar a prontidão

Etapa 2: Preparar para migrar

Etapa 3: Migrar dados e cargas de trabalho de aplicativos

Passo 4: Transição de Gen1 para Gen2

Etapa 1: Avaliar a prontidão

Saiba mais sobre a oferta do Data Lake Storage Gen2, seus benefícios, custos e arquitetura geral.
Compare as capacidades do Gen1 com as do Gen2.
Analise uma lista de problemas conhecidos para avaliar quaisquer lacunas na funcionalidade.
O Gen2 oferece suporte a recursos de armazenamento de Blob, como log de diagnóstico, níveis de acesso e políticas de gerenciamento do ciclo de vida do armazenamento de Blob. Se você estiver interessado em usar qualquer um desses recursos, revise o nível atual de suporte.
Analise o estado atual do suporte ao ecossistema do Azure para garantir que o Gen2 ofereça suporte a quaisquer serviços dos quais suas soluções dependam.

Etapa 2: Preparar para migrar

Identifique os conjuntos de dados que você migrará.

Aproveite esta oportunidade para limpar conjuntos de dados que já não utiliza. A menos que você planeje migrar todos os seus dados de uma só vez, reserve esse tempo para identificar grupos lógicos de dados que você pode migrar em fases.

Realize uma Análise de Envelhecimento (ou similar) na sua conta Gen1 para identificar quais arquivos ou pastas permanecem no inventário por muito tempo ou talvez estejam se tornando obsoletos.
Determine o impacto que uma migração terá no seu negócio.

Por exemplo, considere se você pode arcar com algum tempo de inatividade enquanto a migração ocorre. Essas considerações podem ajudá-lo a identificar um padrão de migração adequado e a escolher as ferramentas mais apropriadas.
Crie um plano de migração.

Recomendamos esses padrões de migração. Você pode escolher um desses padrões, combiná-los ou criar um padrão personalizado próprio.

Etapa 3: Migrar dados, cargas de trabalho e aplicativos

Migre dados, cargas de trabalho e aplicativos usando o padrão de sua preferência. Recomendamos que você valide os cenários incrementalmente.

Crie uma conta de armazenamento e habilite o recurso de namespace hierárquico.
Migre seus dados.
Configure serviços em suas cargas de trabalho para apontar para seu ponto de extremidade Gen2.

Para clusters HDInsight, você pode adicionar definições de configuração de conta de armazenamento ao arquivo %HADOOP_HOME%/conf/core-site.xml. Se você planeja migrar tabelas externas do Hive de Gen1 para Gen2, certifique-se de adicionar configurações de conta de armazenamento ao arquivo %HIVE_CONF_DIR%/hive-site.xml também.

Você pode modificar as configurações de cada arquivo usando o Apache Ambari. Para localizar as configurações da conta de armazenamento, consulte Suporte do Hadoop Azure: ABFS — Azure Data Lake Storage Gen2. Este exemplo usa a configuração para habilitar a fs.azure.account.key autorização de Chave Compartilhada:
```
<property>
  <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name>
  <value>your-key-goes-here</value>
</property>
```
Para obter links para artigos que ajudam a configurar o HDInsight, o Azure Databricks e outros serviços do Azure para usar o Gen2, consulte Serviços do Azure que dão suporte ao Azure Data Lake Storage Gen2.
Atualize os aplicativos para usar APIs Gen2. Consulte estes guias:

Ambiente	Artigo
Explorador de Armazenamento do Azure	Usar o Gerenciador de Armazenamento do Azure para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
.NET	Usar o .NET para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
Java	Usar Java para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
Python	Usar Python para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
JavaScript (Node.js)	Usar o SDK do JavaScript no Node.js para gerenciar diretórios e arquivos no Azure Data Lake Storage Gen2
API REST	Azure Data Lake Store REST API

Atualize scripts para usar cmdlets do PowerShell do Data Lake Storage Gen2 e comandos da CLI do Azure.
Procure referências de URI que contenham a cadeia de caracteres adl:// em arquivos de código ou em notebooks Databricks, arquivos HQL do Apache Hive ou qualquer outro arquivo usado como parte de suas cargas de trabalho. Substitua essas referências pelo URI formatado em Gen2 da sua nova conta de armazenamento. Por exemplo: o URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile pode se tornar abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.
Configure a segurança em sua conta para incluir funções do Azure, segurança em nível de arquivo e pasta e firewalls e redes virtuais do Armazenamento do Azure.

Passo 4: Transição de Gen1 para Gen2

Depois de ter certeza de que seus aplicativos e cargas de trabalho estão estáveis no Gen2, você pode começar a usar o Gen2 para satisfazer seus cenários de negócios. Desative todos os pipelines restantes que estão sendo executados no Gen1 e descomissione sua conta Gen1.

Capacidades Gen1 vs Gen2

Esta tabela compara as capacidades do Gen1 com as do Gen2.

Área	Gen1	Ger2
Organização de dados	Espaço de nomes hierárquico Suporte a ficheiros e pastas	Espaço de nomes hierárquico Suporte a contêineres, arquivos e pastas
Georredundância	LRS	LRS, ZRS, GRS, RA-GRS
Autenticação	Identidade gerenciada do Microsoft Entra Principais de serviço	Identidade gerenciada do Microsoft Entra Principais de serviço Chave de acesso partilhada
Autorização	Gerenciamento - Azure RBAC Dados - ACLs	Gerenciamento - Azure RBAC Dados - ACLs, Azure RBAC
Encriptação - Dados em repouso	Lado do servidor - com chaves gerenciadas pela Microsoft ou pelo cliente	Lado do servidor - com chaves gerenciadas pela Microsoft ou pelo cliente
Suporte VNET	Integração VNET	Pontos de extremidade de serviço, pontos de extremidade privados
Experiência de programador	REST, .NET, Java, Python, PowerShell, CLI do Azure	Geralmente disponível - REST, .NET, Java, Python Pré-visualização pública - JavaScript, PowerShell, Azure CLI
Registos do recurso	Logs clássicos Azure Monitor integrado	Logs clássicos - Geralmente disponíveis Azure Monitor integrado - Pré-visualização
Ecossistema	HDInsight (3.6), Azure Databricks (3.1 e superior), Azure Synapse Analytics, ADF	HDInsight (3.6, 4.0), Azure Databricks (5.1 e superior), Azure Synapse Analytics, ADF

Padrões Gen1 a Gen2

Escolha um padrão de migração e modifique-o conforme necessário.

Padrão de migração	Detalhes
Elevador e Mudança	O padrão mais simples. Ideal se seus pipelines de dados puderem suportar tempo de inatividade.
Cópia incremental	Semelhante ao lift and shift, mas com menos tempo de inatividade. Ideal para grandes quantidades de dados que demoram mais tempo a copiar.
Pipeline duplo	Ideal para tubulações que não podem arcar com nenhum tempo de inatividade.
Sincronização bidirecional	Semelhante ao gasoduto duplo, mas com uma abordagem mais faseada que é adequada para gasodutos mais complicados.

Vamos dar uma olhada mais de perto em cada padrão.

Padrão de elevação e mudança

Este é o padrão mais simples.

Pare todas as gravações no Gen1.
Mova dados de Gen1 para Gen2. Recomendamos o Azure Data Factory ou usando o portal do Azure. As ACLs copiam com os dados.
Aponte operações de ingestão e cargas de trabalho para Gen2.
Descomissionamento Gen1.

Confira nosso código de exemplo para o padrão de elevação e mudança em nosso exemplo de migração de elevação e mudança.

Padrão de elevação e mudança

Considerações sobre o uso do padrão de elevação e deslocamento

Transferência de Gen1 para Gen2 para todas as cargas de trabalho ao mesmo tempo.
Espere tempo de inatividade durante a migração e o período de substituição.
Ideal para pipelines que podem suportar tempo de inatividade e todos os aplicativos podem ser atualizados de uma só vez.

Gorjeta

Considere usar o portal do Azure para reduzir o tempo de inatividade e o número de etapas necessárias para concluir a migração.

Padrão de cópia incremental

Comece a mover dados de Gen1 para Gen2. Recomendamos o Azure Data Factory. As ACLs copiam com os dados.
Copie incrementalmente novos dados do Gen1.
Depois que todos os dados forem copiados, pare todas as gravações para Gen1 e aponte cargas de trabalho para Gen2.
Descomissionamento Gen1.

Confira nosso código de exemplo para o padrão de cópia incremental em nosso Exemplo de migração de cópia incremental.

Padrão de cópia incremental

Considerações sobre o uso do padrão de cópia incremental:

Transferência de Gen1 para Gen2 para todas as cargas de trabalho ao mesmo tempo.
Espere tempo de inatividade apenas durante o período de transição.
Ideal para pipelines em que todos os aplicativos são atualizados ao mesmo tempo, mas a cópia de dados requer mais tempo.

Padrão de pipeline duplo

Mova dados de Gen1 para Gen2. Recomendamos o Azure Data Factory. As ACLs copiam com os dados.
Ingerir novos dados para Gen1 e Gen2.
Aponte cargas de trabalho para Gen2.
Pare todas as gravações para Gen1 e, em seguida, descomissione Gen1.

Confira nosso código de exemplo para o padrão de pipeline duplo em nosso exemplo de migração de pipeline duplo.

Padrão de pipeline duplo

Considerações sobre o uso do padrão de pipeline duplo:

Os oleodutos Gen1 e Gen2 funcionam lado a lado.
Suporta zero tempo de inatividade.
Ideal em situações em que suas cargas de trabalho e aplicativos não podem suportar nenhum tempo de inatividade, e você pode ingerir em ambas as contas de armazenamento.

Padrão de sincronização bidirecional

Configure a replicação bidirecional entre Gen1 e Gen2. Recomendamos o WanDisco. Ele oferece um recurso de reparo para dados existentes.
Quando todas as movimentações estiverem concluídas, interrompa todas as gravações no Gen1 e desative a replicação bidirecional.
Descomissionamento Gen1.

Confira nosso código de exemplo para o padrão de sincronização bidirecional em nosso exemplo de migração de sincronização bidirecional.

Padrão bidirecional

Considerações sobre o uso do padrão de sincronização bidirecional:

Ideal para cenários complexos que envolvem um grande número de pipelines e dependências onde uma abordagem em fases pode fazer mais sentido.
O esforço de migração é alto, mas fornece suporte lado a lado para Gen1 e Gen2.

Próximos passos

Saiba mais sobre as várias partes da configuração de segurança para uma conta de armazenamento. Para obter mais informações, consulte o guia de segurança do Armazenamento do Azure.
Otimize o desempenho do seu Repositório Data Lake. Consulte Otimizar o Azure Data Lake Storage Gen2 para desempenho
Analise as práticas recomendadas para gerenciar seu Repositório Data Lake. Consulte Práticas recomendadas para usar o Azure Data Lake Storage Gen2

Partilhar via

Diretrizes e padrões de migração do Armazenamento Azure Data Lake

Abordagem recomendada

Etapa 1: Avaliar a prontidão

Etapa 2: Preparar para migrar

Etapa 3: Migrar dados, cargas de trabalho e aplicativos

Passo 4: Transição de Gen1 para Gen2

Capacidades Gen1 vs Gen2

Padrões Gen1 a Gen2

Padrão de elevação e mudança

Considerações sobre o uso do padrão de elevação e deslocamento

Padrão de cópia incremental

Considerações sobre o uso do padrão de cópia incremental:

Padrão de pipeline duplo

Considerações sobre o uso do padrão de pipeline duplo:

Padrão de sincronização bidirecional

Considerações sobre o uso do padrão de sincronização bidirecional:

Próximos passos

Consulte também

Recursos adicionais