Zonas de aterragem de dados

As zonas de aterrissagem de dados são conectadas à sua zona de aterrissagem de gerenciamento de dados por emparelhamento de rede virtual (VNet). Cada zona de aterrissagem de dados é considerada uma zona de aterrissagem relacionada à arquitetura da zona de aterrissagem do Azure.

Importante

Antes de provisionar uma zona de aterrissagem de dados, verifique se o modelo operacional de DevOps e CI/CD está instalado e se uma zona de aterrissagem de gerenciamento de dados está implantada.

Cada zona de aterrissagem de dados tem várias camadas que permitem agilidade para as integrações de dados de serviço e produtos de dados que ela contém. Você pode implantar uma nova zona de aterrissagem de dados com um conjunto padrão de serviços que permite que a zona de aterrissagem de dados comece a ingerir e analisar dados.

Sua assinatura do Azure associada à sua zona de aterrissagem de dados tem a seguinte estrutura:

Camada Necessário Grupos de recursos
Serviços principais Sim
Aplicação de dados Opcional
Visualização Opcional

Nota

Um aplicativo de dados produz um ou mais produtos de dados.

Arquitetura da zona de aterrissagem de dados

A arquitetura da zona de aterrissagem de dados ilustra as camadas, seus grupos de recursos e serviços que cada grupo de recursos contém. A arquitetura também fornece uma visão geral de todos os grupos e funções associados à sua zona de pouso de dados, além da extensão do acesso deles aos seus planos de controle e dados.

Diagram of the data landing zone architecture.

Gorjeta

Antes de implantar uma zona de aterrissagem de dados, considere o número de zonas iniciais de aterrissagem de dados que deseja implantar.

Use essa arquitetura como ponto de partida. Baixe o arquivo do Visio e modifique-o para se adequar aos seus requisitos comerciais e técnicos específicos ao planejar a implementação da zona de aterrissagem de dados.

Camada de serviços principais

A camada de serviços principais inclui todos os serviços necessários para habilitar sua zona de aterrissagem de dados no contexto da análise em escala de nuvem. A tabela a seguir lista os grupos de recursos que fornecem o conjunto padrão de serviços disponíveis em cada zona de aterrissagem de dados implantada.

Grupo de Recursos Obrigatório Description
rede-rg Sim Rede
Databricks-Monitoramento-RG Opcional Monitoramento para espaços de trabalho do Azure Databricks
Colmeia-RG Opcional Metastore do Hive para Azure Databricks
Armazenamento-RG Sim Serviços de data lakes
dados externos-rg Sim Carregar armazenamento de ingestão
Tempo de execução-RG Sim Tempos de execução de integração compartilhada
MGMT-RG Sim Agentes CI/CD
metadados-ingestão-rg Opcional Ingestão agnóstica de dados
Databricks-Monitoramento-RG Opcional Espaço de trabalho de análise de log para espaços de trabalho databricks na zona de aterrissagem
sinapse-rg compartilhada Opcional Sinapse do Azure compartilhada
Compartilhado-Databricks-RG Opcional Espaço de trabalho compartilhado do Azure Databricks

Rede

Diagram of a data landing zone network resource group.

O grupo de recursos de rede contém componentes principais, incluindo o Azure Network Watcher, grupos de segurança de rede (NSG) e uma rede virtual. Todos esses serviços são implantados em um único grupo de recursos.

A rede virtual da sua zona de aterrissagem de dados é automaticamente emparelhada com a VNet da zona de aterrissagem de gerenciamento de dados e a VNet da sua assinatura de conectividade.

Monitoramento de espaços de trabalho do Azure Databricks

Este grupo de recursos é opcional e só é implantado com o Azure Databricks.

Diagram of data landing zone monitoring resource group.

O padrão de zona de aterrissagem do Azure recomenda que você envie todos os logs para um espaço de trabalho central do Log Analytics. No entanto, cada zona de aterrissagem de dados também inclui um grupo de recursos de monitoramento para capturar logs do Spark do Databricks. Cada grupo de recursos contém um espaço de trabalho compartilhado do Log Analytics e o Azure Key Vault para armazenar chaves do Log Analytics.

Importante

Use apenas o espaço de trabalho do Log Analytics em seu grupo de recursos de monitoramento do Databricks para capturar logs do Azure Databricks Spark.

Para obter mais informações, consulte Monitorando o Azure Databricks.

Metastore do Hive para Azure Databricks

Esse grupo de recursos é opcional e só deve ser implantado com o Azure Databricks.

O metastore do Hive para Azure Databricks provisiona um Banco de Dados do Azure para banco de dados MySQL e um cofre de chaves. Todos os espaços de trabalho do Azure Databricks em sua zona de aterrissagem de dados usam esse metastore como seu metastore externo do Apache Hive.

Para obter mais informações, consulte Metastore externo do Apache Hive.

Serviços de data lake

Diagram of data landing zone data lake services resource group.

Conforme mostrado no diagrama anterior, três contas do Azure Data Lake Storage Gen2 são provisionadas em um único grupo de recursos de serviços de data lake. Os dados transformados em diferentes estágios são salvos em um dos data lakes da zona de aterrissagem de dados. Os dados estão disponíveis para consumo por suas equipes de análise, ciência de dados e visualização.

As camadas do data lake usam terminologia diferente, dependendo da tecnologia e do fornecedor. Esta tabela fornece orientações sobre como aplicar termos para análises em escala de nuvem:

Análise à escala da cloud Delta Lake Outros termos Description
Raw Bronze Desembarque e Conformidade Tabelas de Ingestão
Enriquecido Silver Zona de Normalização Mesas refinadas. Entidade completa armazenada, conjuntos de registros prontos para consumo de sistemas de registro.
Com curadoria Gold Zona de Produtos Tabelas de feição ou agregadas. Zona principal para aplicativos, equipes e usuários consumirem produtos de dados.
Desenvolvimento -- Zona de Desenvolvimento Localização para engenheiros de dados e cientistas, compreendendo um sandbox de análise e uma zona de desenvolvimento de produtos.

Nota

No diagrama anterior, cada zona de pouso de dados tem três data lakes. No entanto, dependendo de suas necessidades, você pode querer consolidar suas camadas brutas, enriquecidas e selecionadas em uma conta de armazenamento e manter outra conta de armazenamento chamada "desenvolvimento" para que os consumidores de dados tragam outros produtos de dados úteis.

Para obter mais informações, consulte:

Carregar armazenamento de ingestão

Os editores de dados de terceiros precisam colocar dados em sua plataforma para que suas equipes de aplicativos de dados possam enviá-los para seus data lakes. Como visto no diagrama a seguir, seu grupo de recursos de armazenamento de ingestão de upload permite provisionar lojas de blob para terceiros.

Diagram of upload ingest storage service.

Suas equipes de aplicativos de dados solicitam esses blobs de armazenamento. Suas solicitações são então aprovadas pela sua equipe de operações da zona de pouso de dados. Os dados devem ser removidos de seu blob de armazenamento de origem assim que forem extraídos do blob de armazenamento para bruto.

Importante

Como os blobs de Armazenamento do Azure são provisionados conforme necessário , você deve implantar inicialmente um grupo de recursos de serviços de armazenamento vazio em cada zona de aterrissagem de dados.

Tempos de execução de integração compartilhada

Implante uma máquina virtual com tempos de execução de integração auto-hospedados em sua zona de aterrissagem de dados. Hospede-o no grupo de recursos de integração compartilhada. Essa implantação permite que você integre rapidamente produtos de dados à sua zona de aterrissagem de dados.

Diagram of a data landing zone shared integration resource group.

Para habilitar o grupo de recursos:

  • Crie pelo menos um Azure Data Factory no grupo de recursos de integração compartilhada da zona de aterrissagem de dados. Use-o apenas para vincular o tempo de execução de integração auto-hospedado compartilhado, não para pipelines de dados.
  • Crie e configure um tempo de execução de integração auto-hospedado na máquina virtual.
  • Associe o tempo de execução de integração auto-hospedado às fábricas de dados do Azure na(s) sua(s) zona(s) de aterrissagem de dados.
  • Configure a Automação do Azure para atualizar periodicamente o tempo de execução de integração auto-hospedado.

Nota

A implantação acima fornece uma única implantação de máquina virtual com tempos de execução de integração auto-hospedados. Você pode associar um tempo de execução de integração auto-hospedado a várias máquinas locais ou máquinas virtuais no Azure. Essas máquinas são chamadas de nós. Você pode ter até quatro nós associados a um tempo de execução de integração auto-hospedado. Os benefícios de ter vários nós em máquinas locais que têm um gateway instalado para um gateway lógico são:

  • Maior disponibilidade do tempo de execução de integração auto-hospedado para que ele não seja mais o único ponto de falha em sua solução de big data ou integração de dados em nuvem. Essa disponibilidade ajuda a garantir a continuidade quando você usa até quatro nós.
  • Melhor desempenho e taxa de transferência durante a movimentação de dados entre armazenamentos de dados locais e na nuvem. Obtenha mais informações sobre comparações de desempenho.

Você pode associar vários nós instalando o software de tempo de execução de integração auto-hospedado do Centro de Download. Em seguida, registre-o usando uma das chaves de autenticação obtidas do cmdlet New-AzDataFactoryV2IntegrationRuntimeKey , conforme descrito no tutorial.

As informações adicionais são detalhadas em Alta disponibilidade e escalabilidade do Azure Datafactory.

Importante

Implante tempos de execução de integração compartilhada o mais próximo possível da fonte de dados. Sua implantação não restringe a implantação de tempos de execução de integração em uma zona de aterrissagem de dados ou em nuvens de terceiros. Em vez disso, ele fornece um fallback para fontes de dados nativas da nuvem na região.

Agentes CI/CD

Os agentes CI/CD ajudam a implantar aplicativos de dados e alterações na zona de aterrissagem de dados.

Para obter mais informações, consulte Agentes de pipeline do Azure.

Ingestão agnóstica de dados

Diagram of Data landing zone ingest and processing resource group.

Esse grupo de recursos é opcional e não proíbe que você implante sua zona de pouso.

Esse grupo de recursos se aplica se você tiver (ou estiver desenvolvendo) um mecanismo de ingestão independente de dados para a ingestão automática de dados com base no registro de metadados (incluindo cadeias de conexão, caminho para copiar dados de e para e agendamento de ingestão. O grupo de recursos de ingestão e processamento tem serviços-chave para esse tipo de estrutura.

Implante uma instância do Banco de Dados SQL do Azure para armazenar metadados usados pelo Azure Data Factory. Provisione um Cofre de Chaves do Azure para armazenar segredos relacionados a serviços de ingestão automatizados. Esses segredos podem incluir:

  • Credenciais do metastore do Azure Data Factory
  • Credenciais da entidade de serviço para o seu processo de ingestão automatizado

Para obter mais informações, consulte Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure.

Os serviços incluídos neste grupo de recursos incluem:

Service Necessário Diretrizes
Azure Data Factory Sim O Azure data factory é seu mecanismo de orquestração para ingestão agnóstica de dados.
BD SQL do Azure Sim O Banco de Dados SQL do Azure é o metastore do Azure Data Factory.
Hubs de Eventos ou Hub IoT Opcional Os Hubs de Eventos ou o Hub IoT podem fornecer streaming em tempo real para Hubs de Eventos, além de processamento em lote e streaming por meio de um espaço de trabalho de engenharia Databricks.
Azure Databricks Opcional Você pode implantar o Azure Databricks ou o Azure Synapse Spark para uso com seu mecanismo de ingestão agnóstica de dados.
Azure Synapse Opcional Você pode implantar o Azure Databricks ou o Azure Synapse Spark para usar com o mecanismo de ingestão agnóstica de dados.

Databricks compartilhados

Este grupo de recursos é opcional e só é implantado com o Azure Databricks. Todos na sua zona de aterrissagem de dados podem usar um espaço de trabalho Databricks.

O Azure Databricks é um consumidor-chave do serviço de Armazenamento do Azure Data Lake. As operações de arquivos atômicos são otimizadas para mecanismos analíticos Spark. Essa otimização acelera a conclusão de trabalhos do Spark que o serviço Azure Databricks emite.

Diagram of data landing zone shared databricks resource group.

Importante

Um espaço de trabalho do Azure Databricks chamado espaço de trabalho Azure Databricks (analytics) é provisionado para todos os cientistas de dados e DataOps, conforme mostrado no grupo de recursos de produtos compartilhados.

Você pode configurar esse espaço de trabalho para se conectar ao seu Azure Data Lake usando a passagem do Microsoft Entra ou o controle de acesso à tabela. Dependendo do seu caso de uso, você pode configurar o acesso condicional como outra medida de segurança.

Siga as práticas recomendadas de análise em escala de nuvem para integrar o Azure Databricks:

O padrão de zona de aterrissagem do Azure recomenda que você envie todos os logs para um espaço de trabalho central do Log Analytics. No entanto, cada zona de aterrissagem de dados também contém um grupo de recursos de monitoramento para capturar logs do Spark do Databricks.

Azure Synapse Analytics compartilhado

Este grupo de recursos é opcional.

Durante a configuração inicial de uma zona de aterrissagem de dados, um único espaço de trabalho do Azure Synapse Analytics é implantado para uso por todos os analistas de dados e cientistas em seu grupo de recursos de produtos compartilhados.

Você pode configurar mais espaços de trabalho de sinapse para produtos de dados se o gerenciamento de custos e a recarga forem necessários. Suas equipes de aplicativos de dados podem usar espaços de trabalho dedicados do Azure Synapse Analytics para criar pools dedicados do Banco de Dados SQL do Azure como um armazenamento de dados de leitura usado pela sua camada de visualização.

Importante

Impeça o uso do espaço de trabalho compartilhado do Azure Synapse para a criação de produtos de dados bloqueando o espaço de trabalho para permitir apenas consultas SQL On-demand. Está lá apenas para fins de exploração.

Aplicação de dados

Cada zona de aterrissagem de dados pode ter vários produtos de dados. Você pode criar esses produtos de dados ingerindo dados da origem. Você também pode criar produtos de dados de outros produtos de dados dentro da mesma zona de aterrissagem de dados ou de outras zonas de aterrissagem de dados. A criação de produtos de dados dos produtos de dados está sujeita à aprovação do administrador de dados.

Grupo de recursos de produto de dados

O produto do grupo de recursos do produto de dados inclui todos os serviços necessários para criar esse produto de dados. Por exemplo, um Banco de Dados do Azure é necessário para o MySQL, que é usado por uma ferramenta de visualização. Os dados devem ser ingeridos e transformados antes de chegarem ao banco de dados MySQL. Nesse caso, você pode implantar o Banco de Dados do Azure para MySQL e um Azure Data Factory no grupo de recursos do produto de dados.

Gorjeta

Se você optar por não implementar um mecanismo agnóstico de dados para ingerir uma vez de fontes operacionais, ou se conexões complexas não forem facilitadas em seu mecanismo agnóstico de dados, crie um aplicativo de dados alinhado à fonte. Para obter mais informações, consulte Aplicativos de dados (alinhados à origem)

Para obter mais informações sobre como integrar produtos de dados, consulte Produtos de dados analíticos em escala de nuvem no Azure.

Visualização

Um grupo de recursos de visualização vazio é criado para cada zona de aterrissagem de dados. Preencha este grupo de recursos com os serviços de que você precisa para implementar sua solução de visualização. O uso de sua VNet existente permite que sua solução se conecte a produtos de dados.

Esse grupo de recursos pode hospedar máquinas virtuais para serviços de visualização de terceiros.

Gorjeta

Devido aos custos de licenciamento, pode ser mais econômico implantar produtos de visualização de terceiros em sua zona de aterrissagem de gerenciamento de dados e que esses produtos se conectem entre zonas de aterrissagem de dados para extrair dados de volta.

Próximos passos