Visão geral do Azure Data Lake Storage Gen2 no HDInsight

O Azure Data Lake Storage Gen2 obtém os recursos de núcleo do Azure Data Lake Storage Gen1 e os integra ao armazenamento de Blobs do Azure. Esses recursos incluem um sistema de arquivos compatível com o Hadoop, o Microsoft Entra ID e as listas de controle de acesso (ACLs) baseadas em POSIX. Esta combinação permite que você tire vantagem do desempenho do Azure Data Lake Storage Gen1. Ao usar também o gerenciamento de ciclo de vida de dados e camadas do Armazenamento de Blobs.

Para obter mais informações sobre o Azure Data Lake Storage Gen2, confira Introdução ao Azure Data Lake Storage Gen2.

Funcionalidade principal do Azure Data Lake Storage Gen2

  • Acesso que é compatível com Hadoop: No Azure Data Lake Storage Gen2, é possível gerenciar e acessar os dados da mesma forma que seria feito com um Sistema de Arquivos Distribuído Hadoop (HDFS). O driver do Sistema de Arquivos de Blobs do Azure (ABFS) está disponível em todos os ambientes do Apache Hadoop, incluindo o Azure HDInsight e o Azure Databricks. Use o ABFS para acessar os dados armazenados no Data Lake Storage Gen2.

  • Um superconjunto de permissões POSIX: o modelo de segurança para o Data Lake Gen2 é compatível com as permissões ACL e POSIX, juntamente com alguma granularidade extra específica para o Data Lake Storage Gen2. As configurações podem ser definidas por meio de ferramentas administrativas ou de estruturas como o Apache Hive e o Apache Spark.

  • Efetividade de Custo : o Data Lake Storage Gen2 oferece capacidade de armazenamento e transações de baixo custo. O ciclo de vida de armazenamento de Blobs do Azure ajudam a reduzir os custos, ajustando as taxas de cobrança conforme a movimentação de dados no ciclo de vida.

  • Compatibilidade com ferramentas, estruturas e aplicativos de armazenamento do Blob: Data Lake Storage O Gen2 continua a trabalhar com uma grande variedade de ferramentas, estruturas e aplicativos para o armazenamento do Blob.

  • Driver otimizado: O driver ABFS é otimizado especificamente para análise de Big Data. As APIs REST correspondentes são exibidas por meio do ponto de extremidade do Sistema de Arquivos Distribuído (DFS), dfs.core.windows.net.

Novidades no Azure Data Lake Storage Gen2

Identidades gerenciadas para acesso de arquivo seguro

O HDInsight do Azure usa identidades gerenciadas para proteger o acesso do cluster a arquivos no Azure Data Lake Storage Gen2. As identidades gerenciadas são um recurso do Microsoft Entra ID que fornece aos serviços do Azure um conjunto de credenciais gerenciadas automaticamente. Essas credenciais podem ser usadas para autenticar qualquer serviço com suporte para autenticação do Active Directory. O uso de identidades gerenciadas não exige que você armazene credenciais em código ou arquivos de configuração.

Para saber mais, confira Gerenciar identidades para recursos do Azure.

Driver do Sistema de Arquivos de Blobs do Azure

Os aplicativos do Apache Hadoop esperam nativamente ler e gravar dados do armazenamento em disco local. Um driver do sistema de arquivos do Hadoop, como o ABFS, permite que os aplicativos do Hadoop funcionem com o armazenamento em nuvem. Funciona emulando operações regulares do sistema de arquivos Hadoop. O driver converte esses comandos recebidos do aplicativo em operações entendidas pela plataforma de armazenamento de nuvem verdadeira.

Anteriormente, o driver do sistema de arquivos do Hadoop convertia todas as operações do sistema de arquivos para chamadas à API REST do Armazenamento do Azure no lado do cliente. E, em seguida, invocou a API REST. Essa conversão do lado do cliente, no entanto, resultou em várias chamadas à API REST para uma única operação do sistema de arquivos, como a renomeação de um arquivo. O ABFS moveu a lógica de sistema de arquivos do Hadoop do lado do cliente para o lado do servidor. A API do Azure Data Lake Storage Gen2 agora é executada em paralelo com a API de Blobs. Essa migração melhora o desempenho porque agora as operações comuns do sistema de arquivos do Hadoop podem ser executadas com uma chamada à API REST.

para mais informações, consulte ABFS (driver de sistema de arquivos de Blob do Azure): um driver de Armazenamento do Microsoft Azure dedicado para Hadoop.

Esquema de URI no Azure Data Lake Storage Gen2

O Azure Data Lake Storage Gen2 usa um novo esquema de URI para acessar arquivos no Armazenamento do Azure a partir do HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

O esquema de URI fornece acesso criptografado por SSL.

<FILE_SYSTEM_NAME> identifica o caminho do sistema de arquivos Data Lake Storage Gen2.

<ACCOUNT_NAME> identifica o nome da conta do Armazenamento do Azure. Um FQDN (nome de domínio totalmente qualificado) é necessário.

O <PATH> é o nome do caminho de HDFS do arquivo ou diretório.

Se os valores para <FILE_SYSTEM_NAME> e <ACCOUNT_NAME> não forem especificados, será usado o sistema de arquivos padrão. Para os arquivos no sistema de arquivos padrão, use um caminho absoluto ou um caminho relativo. Por exemplo, o arquivo hadoop-mapreduce-examples.jar que vem com clusters HDInsight pode ser referido usando um dos caminhos a seguir:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Observação

O nome do arquivo é hadoop-examples.jar nos clusters HDInsight versões 2.1 e 1.6. Quando estiver trabalhando com arquivos fora do HDInsight, você verá que a maioria dos utilitários não reconhece o formato ABFS mas, em vez disso, esperam um formato de caminho básico, como example/jars/hadoop-mapreduce-examples.jar.

Para obter mais informações, consulte Usar URI do Azure Data Lake Storage Gen2.

Próximas etapas