Partilhar via


Introdução ao Azure Data Lake Storage

O Armazenamento Azure Data Lake é um conjunto de recursos dedicados à análise de big data, criado no Armazenamento de Blobs do Azure.

O Armazenamento Azure Data Lake converge os recursos do Azure Data Lake Storage Gen1 com o Armazenamento de Blobs do Azure. Por exemplo, o Armazenamento Data Lake fornece semântica do sistema de arquivos, segurança em nível de arquivo e escala. Como esses recursos são criados no armazenamento de Blob, você também obtém armazenamento hierárquico de baixo custo, com recursos de alta disponibilidade/recuperação de desastres.

O Armazenamento Data Lake torna o Armazenamento do Azure a base para a criação de data lakes corporativos no Azure. Projetado desde o início para atender a vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência, o Data Lake Storage permite gerenciar facilmente grandes quantidades de dados.

O que é um Data Lake?

Um data lake é um repositório único e centralizado onde você pode armazenar todos os seus dados, estruturados e não estruturados. Um data lake permite que sua organização armazene, acesse e analise de forma rápida e mais fácil uma ampla variedade de dados em um único local. Com um data lake, você não precisa estar em conformidade com seus dados para se adequar a uma estrutura existente. Em vez disso, você pode armazenar seus dados em seu formato bruto ou nativo, geralmente como arquivos ou como objetos binários grandes (blobs).

O Azure Data Lake Storage é uma solução de data lake empresarial baseada na nuvem. Ele foi projetado para armazenar grandes quantidades de dados em qualquer formato e para facilitar cargas de trabalho analíticas de big data. Você o usa para capturar dados de qualquer tipo e velocidade de ingestão em um único local para fácil acesso e análise usando várias estruturas.

Data Lake Storage

O Armazenamento Azure Data Lake não é um serviço dedicado ou um tipo de conta. Em vez disso, ele é implementado como um conjunto de recursos que você usa com o serviço de Armazenamento de Blob da sua conta de Armazenamento do Azure. Você pode desbloquear esses recursos habilitando a configuração de namespace hierárquico.

O Armazenamento Data Lake inclui os seguintes recursos.

✓ Acesso compatível com Hadoop

✓ Estrutura hierárquica de diretórios

✓ Custo e desempenho otimizados

✓ Modelo de segurança de grãos mais fino

✓ Escalabilidade massiva

Acesso compatível com Hadoop

O Armazenamento Azure Data Lake foi projetado principalmente para trabalhar com o Hadoop e todas as estruturas que usam o Apache Hadoop Distributed File System (HDFS) como sua camada de acesso a dados. As distribuições Hadoop incluem o driver do Sistema de Arquivos de Blob do Azure (ABFS), que permite que muitos aplicativos e estruturas acessem dados do Armazenamento de Blobs do Azure diretamente. O driver ABFS é otimizado especificamente para análise de big data. As APIs REST correspondentes são exibidas através do ponto de extremidade dfs.core.windows.net.

As estruturas de análise de dados que usam o HDFS como sua camada de acesso a dados podem acessar diretamente os dados do Armazenamento do Azure Data Lake por meio do ABFS. O mecanismo de análise Apache Spark e o mecanismo de consulta Presto SQL são exemplos dessas estruturas.

Para obter mais informações sobre serviços e plataformas suportados, consulte Serviços do Azure que suportam o Armazenamento do Azure Data Lake e Plataformas de código aberto que suportam o Armazenamento do Azure Data Lake.

Estrutura hierárquica de diretórios

O namespace hierárquico é um recurso fundamental que permite que o Armazenamento Azure Data Lake forneça acesso a dados de alto desempenho em escala e preço de armazenamento de objetos. Você pode usar esse recurso para organizar todos os objetos e arquivos em sua conta de armazenamento em uma hierarquia de diretórios e subdiretórios aninhados. Em outras palavras, seus dados do Armazenamento do Azure Data Lake são organizados da mesma forma que os arquivos são organizados em seu computador.

Operações como renomear ou excluir um diretório, tornam-se operações de metadados atômicos únicos no diretório. Não há necessidade de enumerar e processar todos os objetos que compartilham o prefixo de nome do diretório.

Custo e desempenho otimizados

O preço do Armazenamento Azure Data Lake é calculado de acordo com os níveis de Armazenamento de Blob do Azure. Ele se baseia nos recursos do Armazenamento de Blob do Azure, como gerenciamento automatizado de políticas de ciclo de vida e hierarquização em nível de objeto para gerenciar custos de armazenamento de big data.

O desempenho é otimizado porque você não precisa copiar ou transformar dados como pré-requisito para análise. O recurso de namespace hierárquico do Armazenamento do Azure Data Lake permite acesso e navegação eficientes. Essa arquitetura significa que o processamento de dados requer menos recursos computacionais, reduzindo a velocidade e o custo de acesso aos dados.

Modelo de segurança de grãos mais fino

O modelo de controle de acesso do Armazenamento do Azure Data Lake dá suporte ao controle de acesso baseado em função do Azure (Azure RBAC) e às ACLs (ACLs) da Interface do Sistema Operacional Portátil para UNIX (POSIX). Há também algumas configurações de segurança extras que são específicas para o Armazenamento do Azure Data Lake. Você pode definir permissões no nível do diretório ou no nível do arquivo. Todos os dados armazenados são criptografados em repouso usando chaves de criptografia gerenciadas pela Microsoft ou pelo cliente.

Enorme capacidade de escalabilidade

O Armazenamento Azure Data Lake oferece armazenamento massivo e aceita vários tipos de dados para análise. Ele não impõe limites para tamanhos de contas, tamanhos de arquivos ou a quantidade de dados que podem ser armazenados no data lake. Os arquivos individuais podem ter tamanhos que variam de alguns kilobytes (KBs) a alguns petabytes (PBs). O processamento é executado em latências quase constantes por solicitação que são medidas nos níveis de serviço, conta e arquivo.

Esse design significa que o Armazenamento Azure Data Lake pode ser dimensionado de forma fácil e rápida para atender às cargas de trabalho mais exigentes. Também pode reduzir com a mesma facilidade quando a procura diminui.

Criado no Armazenamento de Blobs do Azure

Os dados que você ingere persistem como blobs na conta de armazenamento. O serviço que gerencia blobs é o serviço de Armazenamento de Blobs do Azure. O Armazenamento Data Lake descreve os recursos ou "aprimoramentos" desse serviço que atendem às demandas de cargas de trabalho analíticas de big data.

Como esses recursos são criados no Armazenamento de Blobs, recursos como log de diagnóstico, camadas de acesso e políticas de gerenciamento de ciclo de vida estão disponíveis para sua conta. A maioria dos recursos de armazenamento de Blob são totalmente suportados, mas alguns recursos podem ser suportados apenas no nível de visualização e há alguns deles que ainda não são suportados. Para obter uma lista completa das instruções de suporte, consulte Suporte ao recurso de Armazenamento de Blob em contas de Armazenamento do Azure. O status de cada recurso listado mudará ao longo do tempo à medida que o suporte continuar a se expandir.

Documentação e terminologia

O sumário do Armazenamento de Blobs do Azure apresenta duas seções de conteúdo. A seção de conteúdo Armazenamento Data Lake fornece práticas recomendadas e orientações para o uso dos recursos do Armazenamento Data Lake. A seção de conteúdo Armazenamento de Blobs fornece orientação para recursos de conta não específicos do Armazenamento Data Lake.

À medida que você se move entre as seções, você pode notar algumas pequenas diferenças terminológicas. Por exemplo, o conteúdo apresentado na documentação do Armazenamento de Blob usará o termo blob em vez de arquivo. Tecnicamente, os ficheiros que ingere para a sua conta de armazenamento tornam-se blobs na sua conta. Portanto, o termo está correto. No entanto, o termo blob pode causar confusão se você estiver acostumado com o arquivo de termos. Você também verá o termo contêiner usado para se referir a um sistema de arquivos. Considere estes termos como sinónimos.

Consulte também