Visão geral do Azure Data Lake Storage para análise de escala de nuvem

Artigo
07/11/2023

O Azure Data Lake é um armazenamento de dados seguro e escalonável em massa para cargas de trabalho de análise de alto desempenho. Você pode criar contas de armazenamento em um só grupo de recursos para a análise em escala de nuvem. Recomendamos provisionar três contas do Azure Data Lake Storage Gen2 em apenas um grupo de recursos, de modo semelhante ao grupo de recursos storage-rg descrito no artigo Visão geral da zona de destino de dados da arquitetura de análise em escala de nuvem.

Cada conta de armazenamento na zona de destino de dados armazena os dados em uma das três fases:

Dados brutos
Dados enriquecidos e coletados
Data lakes de desenvolvimento

Um aplicativo de dados pode consumir dados enriquecidos e coletados de uma conta de armazenamento que foi ingerida em um serviço automatizado de ingestão independente de dados. Você poderá criar um aplicativo de dados alinhado à origem se não implementar o mecanismo independente de dados ou facilitar conexões complexas para ingerir dados de fontes operacionais. Esse aplicativo de dados segue o mesmo fluxo de um mecanismo independente de dados ao ingerir dados de fontes de dados externas.

O Data Lake Storage Gen2 dá suporte a ACLs (listas de controle de acesso) refinadas que protegem os dados nos níveis de arquivo e de pasta. As listas de controle de acesso podem ajudar sua organização a implementar medidas de segurança rígidas para autenticação e autorização em produtos de dados para:

Armazenar os dados com segurança por meio da criptografia em repouso.
Controles de acesso para usuários e grupos de segurança do Microsoft Entra por meio da integração com o Microsoft Entra.

Planejamento do data lake

Quando você planejar um data lake, sempre tenha a consideração apropriada em relação à estrutura, à governança e à segurança. Vários fatores influenciam a estrutura e a organização de cada data lake:

O tipo de dados armazenados
Como os dados são transformados
Quem acessa os dados
Quais são os padrões de acesso típicos

Agrupe os consumidores e os produtores com base nas necessidades de acesso a dados. É uma boa ideia planejar a implementação e a governança de controle de acesso no seu data lake.

Se o data lake contiver alguns ativos de dados e processos automatizados como ETL (extração, transformação e carregamento), seu planejamento provavelmente será bastante fácil. Se o data lake contiver centenas de ativos de dados e envolver interação automatizada e manual, espere gastar mais tempo planejando, pois você precisará de muito mais colaboração dos proprietários de dados.

Analogia do pântano de dados

Um pântano de dados é um data lake não gerenciado que é quase inacessível para os usuários. Os pântanos de dados ocorrem quando você não implementa medidas de governança de dados e de qualidade dos dados. Às vezes, você pode ver um pântano de dados em um data warehouse com modelos híbridos existentes.

A governança e a organização adequadas impedem os pântanos de dados. Quando você cria uma base sólida para seu data lake, aumenta a chance de sucesso e o valor comercial sustentados do data lake.

À medida que o tamanho, a complexidade, o número de ativos de dados e o número de usuários ou departamentos do data lake aumentam, é cada vez mais essencial que você tenha um sistema robusto de catálogo de dados. Seu sistema de catálogo de dados garante que os usuários possam localizar, marcar e classificar os dados enquanto processam, consomem e controlam o data lake.

Para obter mais informações, confira Visão geral da governança de dados.

Contas de armazenamento em um data lake lógico

Considere se a sua organização precisa de uma ou muitas contas de armazenamento e considere os sistemas de arquivos de que você precisa para criar seu data lake lógico. A tecnologia de armazenamento único fornece vários métodos de acesso a dados e ajuda você na padronização de toda a sua organização.

O Data Lake Storage Gen2 é um serviço totalmente gerenciado de PaaS (plataforma como serviço). O uso de contas de armazenamento ou sistemas de arquivos múltiplos não podem gerar um custo monetário até que os dados sejam acessados ou armazenados. Observe que cada recurso do Azure tem uma sobrecarga administrativa e operacional associada durante o provisionamento, a segurança e a governança, incluindo backups e recuperação de desastre.

Observação

Três data lakes são ilustrados em cada zona de destino de dados. No entanto, dependendo dos seus requisitos, você poderá consolidar as camadas brutas, enriquecidas e coletadas em uma só conta de armazenamento. Você pode criar outra conta de armazenamento chamada 'desenvolvimento', na qual os consumidores de dados podem trazer outros produtos de dados úteis.

Considere os seguintes fatores ao decidir entre o uso de uma abordagem consolidada ou de três contas de armazenamento:

Isolamento de ambientes de dados e previsibilidade
- Você pode isolar as atividades executadas nas zonas brutas e de desenvolvimento para evitar o efeito potencial na zona coletada, que contém dados com grande valor comercial necessário para a tomada de decisões críticas
Recursos e funcionalidades no nível da conta de armazenamento
- Escolha se as opções de gerenciamento do ciclo de vida ou se as regras de firewall precisam ser aplicadas na zona de destino de dados ou no nível do data lake.
- Crie várias contas de armazenamento, mas não silos indesejados.
- Evite criar projetos de dados duplicados devido à falta de visibilidade ou de compartilhamento de conhecimentos em toda a organização.
- Verifique se você tem uma boa governança de dados, ferramentas de acompanhamento de projetos e um catálogo de dados em vigor.
Interação de ferramentas e tecnologias de processamento de dados com os dados em vários lakes com base nas permissões configuradas
Lagos regionais versus globais
- Os consumidores ou os processos distribuídos globalmente no lake podem ser sensíveis à latência causada por distâncias geográficas.
- Armazenar os dados localmente é uma boa prática.
- As restrições regulatórias ou a soberania de dados pode exigir que os dados permaneçam em uma região específica.
- Para obter mais informações, confira Implantações em várias regiões.

Implantações em várias regiões

Quando determinado por regras de residência de dados ou por um requisito para manter os dados próximos a uma base de usuários, talvez seja necessário criar contas do Azure Data Lake em várias regiões do Azure. Para fazer isso, crie uma zona de destino de dados em uma região e replique os dados globais usando o AzCopy, o Azure Data Factory ou os produtos de terceiros. Os dados locais permanecem na região, enquanto os dados globais são replicados em várias regiões.

Próximas etapas

Zonas e contêineres do data lake