Introdução ao Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 é um conjunto de capacidades dedicadas à análise de macrodados, baseadas em Armazenamento de Blobs do Azure.

Data Lake Storage Gen2 converge as capacidades do Azure Data Lake Storage Gen1 com Armazenamento de Blobs do Azure. Por exemplo, Data Lake Storage Gen2 fornece semântica do sistema de ficheiros, segurança ao nível do ficheiro e dimensionamento. Uma vez que estas capacidades são criadas no armazenamento de Blobs, também obtém armazenamento em camadas e de baixo custo, com funcionalidades de elevada disponibilidade/recuperação após desastre.

Data Lake Storage Gen2 faz do Armazenamento do Azure a base para a criação de data lakes empresariais no Azure. Concebido do início para o serviço de vários petabytes de informações, ao mesmo tempo que suporta centenas de gigabits de débito, Data Lake Storage Gen2 permite-lhe gerir facilmente grandes quantidades de dados.

O que é um Data Lake?

Um data lake é um único repositório centralizado onde pode armazenar todos os seus dados, estruturados e não estruturados. Um data lake permite à sua organização armazenar, aceder e analisar de forma rápida e mais fácil uma grande variedade de dados numa única localização. Com um data lake, não precisa de estar em conformidade com os seus dados para se ajustar a uma estrutura existente. Em vez disso, pode armazenar os seus dados no formato não processado ou nativo, normalmente como ficheiros ou como objetos binários grandes (blobs).

Azure Data Lake Storage é uma solução de data lake empresarial baseada na cloud. Foi concebido para armazenar grandes quantidades de dados em qualquer formato e para facilitar cargas de trabalho analíticas de macrodados. Pode utilizá-la para capturar dados de qualquer tipo e velocidade de ingestão numa única localização para facilitar o acesso e análise através de várias arquiteturas.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 refere-se à implementação atual da solução de Data Lake Storage do Azure. A implementação anterior, Azure Data Lake Storage Gen1 será descontinuada a 29 de fevereiro de 2024.

Ao contrário Data Lake Storage Gen1, Data Lake Storage Gen2 não é um serviço ou tipo de conta dedicado. Em vez disso, é implementado como um conjunto de capacidades que utiliza com o serviço Armazenamento de Blobs da sua conta de Armazenamento do Azure. Pode desbloquear estas capacidades ao ativar a definição de espaço de nomes hierárquico.

Data Lake Storage Gen2 inclui as seguintes capacidades.

✓ Acesso compatível com Hadoop

✓ Estrutura hierárquica do diretório

✓ Custo e desempenho otimizados

✓ Modelo de segurança mais detalhado

✓ Escalabilidade massiva

Acesso compatível com Hadoop

Azure Data Lake Storage Gen2 foi concebido principalmente para trabalhar com o Hadoop e todas as arquiteturas que utilizam o Sistema de Ficheiros Distribuído do Apache Hadoop (HDFS) como camada de acesso a dados. As distribuições do Hadoop incluem o controlador do Sistema de Ficheiros de Blobs do Azure (ABFS), que permite que muitas aplicações e arquiteturas acedam diretamente a dados Armazenamento de Blobs do Azure. O controlador do ABFS está otimizado especificamente para análise de macrodados. As APIs REST correspondentes são apresentadas através do ponto dfs.core.windows.netfinal .

As arquiteturas de análise de dados que utilizam o HDFS como camada de acesso a dados podem aceder diretamente Azure Data Lake Storage Gen2 dados através do ABFS. O motor de análise do Apache Spark e o motor de consulta Presto SQL são exemplos dessas arquiteturas.

Para obter mais informações sobre os serviços e plataformas suportados, veja Serviços do Azure que suportam plataformas Azure Data Lake Storage Gen2 e Open source que suportam Azure Data Lake Storage Gen2.

Estrutura hierárquica do diretório

O espaço de nomes hierárquico é uma funcionalidade-chave que permite aos Azure Data Lake Storage Gen2 fornecer acesso a dados de alto desempenho à escala e ao preço do armazenamento de objetos. Pode utilizar esta funcionalidade para organizar todos os objetos e ficheiros na sua conta de armazenamento numa hierarquia de diretórios e subdiretórios aninhados. Por outras palavras, os seus Azure Data Lake Storage Gen2 dados estão organizados da mesma forma que os ficheiros estão organizados no seu computador.

Operações como mudar o nome ou eliminar um diretório, tornam-se operações de metadados atómicos únicos no diretório. Não é necessário enumerar e processar todos os objetos que partilham o prefixo de nome do diretório.

Custo e desempenho otimizados

Azure Data Lake Storage Gen2 tem um preço a níveis de Armazenamento de Blobs do Azure. Baseia-se em capacidades de Armazenamento de Blobs do Azure, como a gestão automatizada de políticas de ciclo de vida e a camada de nível de objeto para gerir os custos de armazenamento de macrodados.

O desempenho está otimizado porque não precisa de copiar ou transformar dados como um pré-requisito para análise. A capacidade de espaço de nomes hierárquico de Azure Data Lake Storage permite um acesso e navegação eficientes. Esta arquitetura significa que o processamento de dados requer menos recursos computacionais, reduzindo a velocidade e o custo de acesso aos dados.

Modelo de segurança mais detalhado

O modelo de controlo de acesso Azure Data Lake Storage Gen2 suporta as listas de controlo de acesso (ACLs) baseadas em funções do Azure (RBAC do Azure) e da Interface de Sistema Operativo Portátil para UNIX (POSIX). Existem também algumas definições de segurança adicionais específicas para Azure Data Lake Storage Gen2. Pode definir permissões ao nível do diretório ou ao nível do ficheiro. Todos os dados armazenados são encriptados inativos com chaves de encriptação geridas pela Microsoft ou geridas pelo cliente.

Escalabilidade massiva

Azure Data Lake Storage Gen2 oferece armazenamento maciço e aceita inúmeros tipos de dados para análise. Não impõe limites aos tamanhos de conta, tamanhos de ficheiros ou à quantidade de dados que podem ser armazenados no data lake. Os ficheiros individuais podem ter tamanhos que variam entre alguns quilobytes (KBs) e alguns petabytes (PBs). O processamento é executado em latências quase constantes por pedido que são medidas ao nível do serviço, conta e ficheiro.

Esta estrutura significa que Azure Data Lake Storage Gen2 podem aumentar verticalmente de forma fácil e rápida para satisfazer as cargas de trabalho mais exigentes. Também pode reduzir verticalmente facilmente quando a procura diminui.

Baseado em Armazenamento de Blobs do Azure

Os dados que ingerir persistem como blobs na conta de armazenamento. O serviço que gere os blobs é o serviço Armazenamento de Blobs do Azure. Data Lake Storage Gen2 descreve as capacidades ou as "melhorias" deste serviço que atende às exigências das cargas de trabalho de análise de macrodados.

Uma vez que estas capacidades são criadas no Armazenamento de Blobs, as funcionalidades como o registo de diagnósticos, as camadas de acesso e as políticas de gestão do ciclo de vida estão disponíveis para a sua conta. A maioria das funcionalidades do Armazenamento de Blobs é totalmente suportada, mas algumas funcionalidades podem ser suportadas apenas ao nível da pré-visualização e existem algumas que ainda não são suportadas. Para obter uma lista completa das instruções de suporte, veja Suporte de funcionalidades do Armazenamento de Blobs nas contas de Armazenamento do Azure. O estado de cada funcionalidade listada será alterado ao longo do tempo à medida que o suporte continua a expandir-se.

Documentação e terminologia

O Armazenamento de Blobs do Azure índice apresenta duas secções de conteúdo. A secção Data Lake Storage Gen2 de conteúdo fornece melhores práticas e orientações para a utilização de capacidades de Data Lake Storage Gen2. A secção Armazenamento de Blobs de conteúdo fornece orientações para funcionalidades de conta não específicas para Data Lake Storage Gen2.

À medida que se desloca entre secções, poderá notar algumas ligeiras diferenças de terminologia. Por exemplo, o conteúdo apresentado na documentação do Armazenamento de Blobs irá utilizar o termo blob em vez de ficheiro. Tecnicamente, os ficheiros que ingerir na sua conta de armazenamento tornam-se blobs na sua conta. Portanto, o termo está correto. No entanto, o termo blob pode causar confusão se estiver habituado ao termo ficheiro. Também verá o termo contentor utilizado para se referir a um sistema de ficheiros. Considere estes termos como sinónimos.

Ver também