Introdução ao Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 é um conjunto de capacidades dedicadas à análise de big data, baseadas em Armazenamento de Blobs do Azure.

Data Lake Storage Gen2 converge as capacidades da Azure Data Lake Storage Gen1 com Armazenamento de Blobs do Azure. Por exemplo, Data Lake Storage Gen2 fornece semântica do sistema de ficheiros, segurança ao nível de ficheiros e escala. Como estas capacidades são construídas no armazenamento Blob, você também terá armazenamento de baixo custo, tiered, com alta disponibilidade/capacidade de recuperação de desastres.

Projetado para analítica de big data da empresa

Data Lake Storage Gen2 faz do Azure Storage a base para a construção de lagos de dados empresariais em Azure. Projetado desde o início para o serviço de vários petabytes de informação, mantendo centenas de gigabits de produção, Data Lake Storage Gen2 permite-lhe gerir facilmente quantidades massivas de dados.

Uma parte fundamental do Data Lake Storage Gen2 é a adição de um espaço hierárquico ao armazenamento de Blob. O espaço hierárquico organiza objetos/ficheiros numa hierarquia de diretórios para um acesso eficiente aos dados. Uma convenção comum de nomeação de objetos usa cortes no nome para imitar uma estrutura hierárquica do diretório. Esta estrutura torna-se real com Data Lake Storage Gen2. Operações como renomear ou eliminar um diretório, tornam-se operações únicas de metadados atómicos no diretório. Não há necessidade de enumerar e processar todos os objetos que partilham o nome prefixo do diretório.

Data Lake Storage Gen2 baseia-se no armazenamento blob e melhora o desempenho, a gestão e a segurança das seguintes formas:

  • O desempenho é otimizado porque não precisa de copiar ou transformar dados como pré-requisito para análise. Em comparação com o espaço de nome plano no armazenamento blob, o espaço hierárquico melhora consideravelmente o desempenho das operações de gestão de diretórios, o que melhora o desempenho geral do trabalho.

  • A gestão é mais fácil porque pode organizar e manipular ficheiros através de diretórios e subdiretórios.

  • A segurança é executável porque pode definir permissões DE POSIX em diretórios ou ficheiros individuais.

Além disso, Data Lake Storage Gen2 é muito rentável porque é construído em cima do Armazenamento de Blobs do Azure de baixo custo. As características extras diminuem ainda mais o custo total de propriedade para executar big data analytics em Azure.

Principais características da Data Lake Storage Gen2

  • Acesso compatível com Hadoop: Data Lake Storage Gen2 permite-lhe gerir e aceder a dados tal como faria com um Sistema de Ficheiros Distribuídos Hadoop (HDFS). O novo controlador ABFS (usado para aceder a dados) está disponível em todos os ambientes apache Hadoop. Estes ambientes incluem Azure HDInsight,Azure Databricks e Azure Synapse Analytics.

  • Um superconjunto de permissões POSIX: O modelo de segurança para data lake Gen2 suporta permissões ACL e POSIX juntamente com alguma granularidade extra específica para Data Lake Storage Gen2. As configurações podem ser configuradas através Explorador de Armazenamento ou através de estruturas como a Colmeia e a Faísca.

  • Custo-eficácia: Data Lake Storage Gen2 oferece capacidade de armazenamento de baixo custo e transações. Características como Armazenamento de Blobs do Azure ciclo de vida otimizam os custos à medida que os dados transitam através do seu ciclo de vida.

  • Condutor otimizado: O condutor da ABFS está otimizado especificamente para análise de big data. As APIs de REST correspondentes são emergidas através do ponto final dfs.core.windows.net.

Escalabilidade

O Azure Storage é escalável por design, quer aceda através de interfaces de armazenamento Data Lake Storage Gen2 ou Blob. É capaz de armazenar e servir muitos exabytes de dados. Esta quantidade de armazenamento está disponível com produção medida em gigabits por segundo (Gbps) em altos níveis de operações de entrada/saída por segundo (IOPS). O processamento é executado em latências quase constantes por pedido que são medidas nos níveis de serviço, conta e arquivo.

Rentabilidade

Uma vez que Data Lake Storage Gen2 é construída em cima de Armazenamento de Blobs do Azure, a capacidade de armazenamento e os custos de transação são mais baixos. Ao contrário de outros serviços de armazenamento em nuvem, não precisa mover ou transformar os seus dados antes de poder analisá-los. Para obter mais informações sobre preços, consulte os preços do Azure Storage.

Além disso, características como o espaço hierárquico melhoram significativamente o desempenho global de muitos trabalhos analíticos. Esta melhoria no desempenho significa que você precisa de menos poder de computação para processar a mesma quantidade de dados, resultando num menor custo total de propriedade (TCO) para o trabalho de análise de ponta a ponta.

Um serviço, vários conceitos

Como Data Lake Storage Gen2 é construída em cima de Armazenamento de Blobs do Azure, vários conceitos podem descrever as mesmas coisas partilhadas.

Seguem-se as entidades equivalentes, conforme descrito por diferentes conceitos. Salvo especificação em contrário, estas entidades são diretamente sinónimos:

Conceito Organização de Alto Nível Organização de nível inferior Contentor de Dados
Blobs - Armazenamento de objetos de uso geral Contentor Diretório virtual (apenas SDK - não fornece manipulação atómica) Blob
Azure Data Lake Storage Gen2 - Armazenamento analítico Contentor Diretório Ficheiro

Funcionalidades de armazenamento de blob suportadas

As funcionalidades de Armazenamento blob, tais como registo de diagnóstico, níveis de acesso e políticas de gestão do ciclo de vida blob armazenamento estão disponíveis na sua conta. A maioria das funcionalidades de Blob Storage são totalmente suportadas, mas algumas funcionalidades são suportadas apenas ao nível de pré-visualização ou ainda não suportadas.

Para ver como cada funcionalidade de Armazenamento Blob é suportado com Data Lake Storage Gen2, consulte o suporte da funcionalidade Blob Storage nas contas de Armazenamento Azure.

Integrações de serviços suportados aZure

Data Lake Storage gen2 suporta vários serviços Azure. Pode usá-los para ingerir dados, realizar análises e criar representações visuais. Para obter uma lista de serviços Azure apoiados, consulte os serviços da Azure que suportam Azure Data Lake Storage Gen2.

Plataformas open source suportadas

Várias plataformas open source apoiam Data Lake Storage Gen2. Para obter uma lista completa, consulte plataformas Open source que suportam Azure Data Lake Storage Gen2.

Ver também