Desenhe uma solução de integração de dados com Azure Data Lake

Concluído

Um data lake é um repositório de dados armazenados no seu formato natural, habitualmente como blobs ou ficheiros. Azure Data Lake O armazenamento é uma solução de data lake abrangente, escalável e económica para análise de big data integrada na Azure. O Azure Data Lake Storage combina um sistema de ficheiros com uma plataforma de armazenamento para o ajudar a identificar rapidamente insights sobre os seus dados. A solução baseia-se nas capacidades do Armazenamento de Blobs do Azure para fornecer otimizações para cargas de trabalho analíticas. Esta integração permite capacidades de desempenho analítico, alta disponibilidade, segurança e durabilidade do Armazenamento do Azure. Neste vídeo, a demonstração não é fornecida.

Importante

O Azure Data Lake Storage Gen1 foi retirado a 29 de fevereiro de 2024. As contas existentes Gen1 já não estão acessíveis e novas contas não podem ser criadas. Esta unidade cobre exclusivamente o Azure Data Lake Storage Gen2.

Coisas a saber sobre Azure Data Lake Storage

Para compreender melhor o Azure Data Lake Storage, vamos analisar as seguintes características.

  • O Azure Data Lake Storage pode armazenar qualquer tipo de dados utilizando o formato nativo dos dados. Com suporte para qualquer formato de dados e tamanhos de dados massivos, o Azure Data Lake Storage pode trabalhar com dados estruturados, semi-estruturados e não estruturados.

  • A solução foi projetada principalmente para funcionar com o Hadoop e todas as estruturas que usam o Apache Hadoop Distributed File System (HDFS) como sua camada de acesso a dados. As estruturas de análise de dados que usam o HDFS como sua camada de acesso a dados podem acessar diretamente.

  • O Azure Data Lake Storage suporta alta taxa de transferência para análises intensivas de entrada e saída e movimentação de dados.

  • O modelo de controlo de acesso do Azure Data Lake Storage suporta tanto o controlo de acesso baseado em funções (RBAC) do Azure como as listas de controlo de acesso (ACLs) da Interface do Sistema Operativo Portátil para UNIX (POSIX).

  • Azure Data Lake Storage utiliza modelos de replicação Azure Blob. Estes modelos suportam as mesmas opções de redundância disponíveis para o Armazenamento de Blobs do Azure. A Microsoft recomenda o ZRS para cargas de trabalho do Azure Data Lake Storage.

  • O Azure Data Lake Storage oferece armazenamento massivo e aceita inúmeros tipos de dados para análise.

  • Azure Data Lake Storage segue os níveis de preços do Armazenamento de Blobs do Azure.

Como funciona o Azure Data Lake Storage

Existem três passos importantes para utilizar o Azure Data Lake Storage:

  1. Ingerir dados. O Azure Data Lake Storage oferece muitos métodos diferentes de ingestão de dados:

    • Para dados não planeados, pode usar ferramentas como AzCopy, CLI do Azure, PowerShell e Explorador de Armazenamento do Azure.
    • Para dados relacionais, pode ser utilizado o serviço Azure Data Factory. Pode transferir dados de qualquer fonte, como Azure Cosmos DB, SQL Database, instâncias SQL do Azure Managed e outras.
    • Para dados em streaming, pode usar ferramentas como Apache Storm no Azure HDInsight, Azure Stream Analytics, entre outras.

    O diagrama seguinte mostra como os dados não estruturados e em streaming são ingeridos em massa ou de forma não planeada no Azure Data Lake Storage.

    Diagrama que mostra como os dados não estruturados e os dados de streaming são ingeridos em massa ou de forma não planeada no Azure Data Lake Storage.

  2. Aceda aos dados armazenados. A forma mais fácil de aceder aos seus dados é usar o Explorador de Armazenamento do Azure. Explorador de Armazenamento é uma aplicação autónoma com uma interface gráfica (GUI) para aceder aos seus dados do Azure Data Lake Storage. Também pode usar PowerShell, CLI do Azure, HDFS CLI ou outros SDKs de linguagens de programação para aceder aos dados.

  3. Configure o controle de acesso. Controla quem pode aceder aos dados armazenados no Azure Data Lake Storage implementando um mecanismo de autorização. Pode escolher Azure, RBAC ou ACL.

Cenário de negócio

A Tailwind Traders tem várias fontes de dados, incluindo sites, sistemas de Ponto de Venda (POS), sites de mídia social e dispositivos de Internet das Coisas (IoT). A empresa está interessada em utilizar o Azure para analisar todos os seus dados empresariais. Tem a tarefa de fornecer orientações sobre como a Azure pode melhorar os seus sistemas de BI existentes. Precisa de aconselhar a equipa sobre como as capacidades de armazenamento do Azure podem acrescentar valor à solução de BI da empresa. Para cumprir os requisitos de dados, planeia recomendar o Azure Data Lake Storage. O Data Lake Storage oferece um repositório onde pode carregar e armazenar grandes quantidades de dados não estruturados com vista a análises de big data de alto desempenho.

Vamos rever como o Azure Data Lake Storage pode ser a escolha certa para as necessidades de big data da organização.

Cenário Solução
Forneça um armazém de dados na nuvem para gerir grandes volumes de dados. Azure Data Lake Storage corre em hardware virtual na plataforma Azure. O armazenamento é escalável, rápido e confiável sem incorrer em grandes cargas. Ele separa os custos de armazenamento dos custos de computação. À medida que o volume de dados cresce, apenas os requisitos de armazenamento mudam.
Ofereça suporte a uma coleção diversificada de tipos de dados, como arquivos JSON, CSV, arquivos de log ou outros formatos. O Azure Data Lake Storage permite a democratização dos dados para a sua organização ao armazenar todos os seus formatos de dados (incluindo dados brutos) num único local. Ao eliminar silos de dados, os seus utilizadores podem usar ferramentas como o Azure Data Explorer para aceder e trabalhar com todos os itens de dados na sua conta de armazenamento.
Habilite a ingestão e o armazenamento de dados em tempo real. Azure Data Lake Storage pode ingerir dados em tempo real diretamente de uma instância de Apache Storm em Azure HDInsight, Hub IoT do Azure, Hubs de Eventos do Azure ou Azure Stream Analytics. Ele também funciona com dados semiestruturados e permite que você ingira todos os seus dados em tempo real em sua conta de armazenamento.

Coisas a considerar ao escolher Armazenamento de Blobs do Azure ou Azure Data Lake

A tabela seguinte compara critérios de solução de armazenamento para usar Armazenamento de Blobs do Azure versus Azure Data Lake. Analise os critérios e considere qual solução é ideal para os Tailwind Traders.

Comparar Azure Data Lake Armazenamento de Blobs do Azure (Armazenamento de Blobs do Azure)
Tipos de dados Bom para armazenar grandes volumes de dados de texto Bom para armazenar dados não estruturados baseados em texto, como fotos, vídeos e backups
Redundância geográfica Deve configurar manualmente a replicação de dados Fornece armazenamento com redundância geográfica por padrão
Namespaces (Espaços de nomes) Suporta namespaces hierárquicos Suporta namespaces simples
Compatibilidade com Hadoop Os serviços Hadoop podem usar dados armazenados no Azure Data Lake Ao usar o Azure Blob Filesystem Driver, aplicações e frameworks podem aceder a dados no Armazenamento de Blobs do Azure
Segurança Suporta acesso granular O acesso granular não é suportado

Sugestão

Aprenda mais com treino auto-ritmado, Introdução à Azure Data Lake Storage Gen2.