Compreender o Azure Data Lake Storage Gen2

Concluído

Um data lake é um repositório de dados armazenados no seu formato natural, habitualmente como blobs ou ficheiros. O Armazenamento Azure Data Lake é uma solução de data lake abrangente, massivamente escalável, segura e económica para análises de alto desempenho incorporadas no Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

O Azure Data Lake Storage combina um sistema de ficheiros com uma plataforma de armazenamento para ajudar a identificar rapidamente as informações nos seus dados. O Armazenamento Data Lake baseia-se nos recursos de armazenamento de Blob do Azure para otimizá-lo especificamente para cargas de trabalho de análise. Esta integração permite o desempenho de análise, as funcionalidades de camadas e de gestão do ciclo de vida de dados do Armazenamento de Blobs e as capacidades de elevada disponibilidade, segurança e durabilidade do Armazenamento do Azure.

Benefícios

O Armazenamento Data Lake foi projetado para lidar com essa variedade e volume de dados em escala de exabytes, ao mesmo tempo em que lida com segurança com centenas de gigabytes de taxa de transferência. Assim, pode utilizar o Data Lake Storage Gen2 como base, tanto para soluções em tempo real como em lote.

Acesso compatível com o Hadoop

Um benefício do Data Lake Storage é que você pode tratar os dados como se estivessem armazenados em um HDFS (Hadoop Distributed File System). Com esta funcionalidade, poderá armazenar os dados num único local e aceder aos mesmos através de tecnologias de computação, incluindo o Azure Databricks, o Azure HDInsight e o Azure Synapse Analytics, sem mover os dados entre ambientes. O engenheiro de dados também tem a capacidade de usar mecanismos de armazenamento, como o formato parquet, que é altamente compactado e tem um bom desempenho em várias plataformas usando um armazenamento colunar interno.

Segurança

O Armazenamento Data Lake suporta listas de controle de acesso (ACLs) e permissões de Interface do Sistema Operacional Portátil (POSIX) que não herdam as permissões do diretório pai. Na verdade, você pode definir permissões em um nível de diretório ou de arquivo para os dados armazenados no data lake, fornecendo um sistema de armazenamento muito mais seguro. Essa segurança é configurável por meio de tecnologias como Hive e Spark ou utilitários como o Azure Storage Explorer, que é executado no Windows, macOS e Linux. Todos os dados armazenados são encriptados em estado inativo através de chaves geridas pela Microsoft ou pelo cliente.

Desempenho

O Azure Data Lake Storage organiza os dados armazenados numa hierarquia de diretórios e subdiretórios de maneira muito semelhante a um sistema de ficheiros, para uma navegação mais fácil. Por conseguinte, o processamento de dados necessita de menos recursos computacionais, o que reduz o tempo e custo.

Redundância de dados

O Armazenamento Data Lake aproveita os modelos de replicação de Blob do Azure que fornecem redundância de dados em um único data center com LRS (armazenamento com redundância local) ou para uma região secundária usando a opção GRS (Armazenamento com Redundância Geográfica). Esta funcionalidade garante que os seus dados estarão sempre disponíveis e protegidos em caso de catástrofe.

Gorjeta

Sempre que planejar um data lake, um engenheiro de dados deve considerar cuidadosamente a estrutura, a governança de dados e a segurança. Isso deve incluir a consideração de fatores que podem influenciar a estrutura e organização do lago, tais como:

  • Tipos de dados a armazenar
  • Como os dados serão transformados
  • Quem deve aceder aos dados
  • Quais são os padrões de acesso típicos

Essa abordagem ajudará a determinar como planejar a governança de controle de acesso em todo o lago. Os engenheiros de dados devem ser proativos para garantir que o lago não se torne o pântano de dados proverbial que se torna inacessível e inútil para os usuários devido à falta de governança de dados e medidas de qualidade de dados. Estabelecer uma linha de base e seguir as práticas recomendadas para o Azure Data Lake ajudará a garantir uma implementação adequada e robusta que permitirá que a organização cresça e obtenha informações para alcançar mais.