Zonas de destino de dados

As zonas de destino de dados são conectadas à zona de destino de gerenciamento de dados pelo Emparelhamento VNET (rede virtual). Cada zona de destino de dados é considerada uma zona de destino relacionada à arquitetura da zona de destino do Azure.

Importante

Antes de provisionar uma zona de destino de dados, tenha um modelo operacional de DevOps e de CI/CD em vigor e uma zona de destino de gerenciamento de dados implantada.

Cada zona de destino de dados tem várias camadas que permitem agilidade nas integrações de dados de serviço e nos produtos de dados contidos neles. É possível implantar uma nova zona de destino de dados com um conjunto padrão de serviços que permita que a zona de destino de dados comece a ingerir e analisar dados.

Sua assinatura do Azure associada à zona de destino de dados tem a seguinte estrutura:

Camada Obrigatório Grupos de recursos
Serviços principais Sim
Aplicativo de dados Opcional
Visualização Opcional

Observação

Um aplicativo de dados produz um ou mais produtos de dados.

Arquitetura da zona de destino de dados

A arquitetura da zona de destino de dados ilustra as camadas, os respectivos grupos de recursos e os serviços que cada grupo de recursos contém. A arquitetura também fornece uma visão geral de todos os grupos e as funções associadas à zona de destino de dados, além da extensão do acesso dela aos planos de dados e ao painel de controle.

Diagram of the data landing zone architecture.

Dica

Antes de implantar uma zona de destino de dados, considere o número de zonas de destino de dados iniciais que deseja implantar.

Use essa arquitetura como um ponto de partida. Baixe o arquivo Visio e modifique-o para ajustá-lo aos seus requisitos técnicos e comerciais específicos ao planejar a implementação da zona de destino de dados.

Camada de serviços principais

A camada de serviços principais inclui todos os serviços necessários para habilitar sua zona de destino de dados no contexto da análise em escala de nuvem. A tabela a seguir lista os grupos de recursos que fornecem o pacote padrão de serviços disponíveis em cada zona de destino de dados implantada.

Grupo de recursos Obrigatório Descrição
network-rg Sim Rede
databricks-monitoring-rg Opcional Monitoramento de workspaces do Azure Databricks
hive-rg Opcional Metastore do Hive para Azure Databricks
storage-rg Sim Serviços de data lakes
external-data-rg Sim Armazenamento de ingestão de upload
runtimes-rg Sim Runtimes de integração compartilhada
mgmt-rg Sim Agentes de CI/CD
metadata-ingestion-rg Opcional Ingestão independente de dados
databricks-monitoring-rg Opcional Workspace do Log Analytics para workspaces do Databricks na zona de destino
shared-synapse-rg Opcional Azure Synapse compartilhado
shared-databricks-rg Opcional Workspace do Azure Databricks compartilhado

Rede

Diagram of a data landing zone network resource group.

O grupo de recursos de rede contém componentes básicos, incluindo o Observador de Rede do Azure, os NSGs (grupos de segurança de rede) e a rede virtual. Todos esses serviços são implantados em um único grupo de recursos.

A rede virtual da zona de destino de dados é emparelhada automaticamente com a VNet da zona de destino de gerenciamento de dados e com a VNet da sua assinatura de conectividade.

Monitoramento de workspaces do Azure Databricks

Esse grupo de recursos é opcional e só é implantado com o Azure Databricks.

Diagram of data landing zone monitoring resource group.

O padrão de zona de destino do Azure recomenda que você envie todos os logs para um workspace central do Log Analytics. No entanto, cada zona de destino de dados também inclui um grupo de recursos de monitoramento para capturar os logs do Spark por meio do Databricks. Cada grupo de recursos contém um workspace compartilhado do Log Analytics e um Azure Key Vault para armazenar as chaves do Log Analytics.

Importante

Use apenas o workspace do Log Analytics no seu grupo de recursos de monitoramento do Databricks para capturar os logs do Spark no Azure Databricks.

Para obter mais informações, consulte Monitorar o Azure Databricks.

Metastore do Hive para Azure Databricks

Esse grupo de recursos é opcional e só deve ser implantado com o Azure Databricks.

O metastore do Hive para o Azure Databricks provisiona um banco de dados do Banco de Dados do Azure para MySQL e um cofre de chaves. Todos os workspaces do Azure Databricks na zona de destino de dados usam esse metastore como o metastore externo do Apache Hive.

Para obter mais informações, confira Metastore externo do Apache Hive.

Serviços de data lake

Diagram of data landing zone data lake services resource group.

Conforme mostrado no diagrama anterior, três contas do Azure Data Lake Storage Gen2 são provisionadas em um só grupo de recursos dos serviços de data lake. Os dados transformados em diferentes fases são salvos em um dos data lakes da zona de destino de dados. Os dados ficam disponíveis para consumo pelas suas equipes de análise, de ciência de dados e de visualização.

As camadas do data lake usam uma terminologia diferente conforme a tecnologia e o fornecedor. Esta tabela fornece diretrizes de como aplicar os termos à análise em escala de nuvem:

Análise em escala de nuvem Delta Lake Outros termos Descrição
Bruta Bronze Destino e conformidade Tabelas de ingestão
Enriquecido Prata Zona de padronização Tabelas refinadas. Entidade completa armazenada, conjuntos de registros prontos para consumo nos sistemas de registro.
Selecionado Ouro Zona de produto Recurso ou tabelas agregadas. Zona primária para aplicativos, equipes e usuários consumirem produtos de dados.
Desenvolvimento -- Zona de desenvolvimento Local para engenheiros de dados e cientistas, compreendendo uma área restrita de análise e uma zona de desenvolvimento de produtos.

Observação

No diagrama anterior, cada zona de destino de dados tem três data lakes. No entanto, dependendo dos seus requisitos, o ideal é consolidar suas camadas brutas, enriquecidas e coletadas em uma só conta de armazenamento e manter outra conta de armazenamento chamada 'desenvolvimento' para que os consumidores de dados tragam outros produtos de dados úteis.

Para saber mais, veja:

Armazenamento de ingestão de upload

Os editores de dados de terceiros precisam colocar dados na sua plataforma para que as suas equipes de aplicativos de dados possam extraí-los para os respectivos data lakes. Como será visto no diagrama a seguir, o grupo de recursos de armazenamento de ingestão de upload permite provisionar repositórios de blobs para terceiros.

Diagram of upload ingest storage service.

Suas equipes de aplicativos de dados solicitam esses blobs de armazenamento. Em seguida, as solicitações são aprovadas pela equipe de operações da zona de destino de dados. Os dados devem ser removidos do blob de armazenamento de origem depois de serem extraídos do blob de armazenamento em dados brutos.

Importante

Como o provisionamento de blobs do Armazenamento do Azure ocorre conforme a necessidade, recomendamos implantar inicialmente um grupo de recursos de serviços de armazenamento vazio em cada zona de destino de dados.

Runtimes de integração compartilhada

Implante uma máquina virtual com tempos de execução de integração auto-hospedados em sua zona de aterrissagem de dados. Hospede-o no grupo de recursos de integração compartilhada. Essa implantação permite que você integre rapidamente produtos de dados à zona de destino de dados.

Diagram of a data landing zone shared integration resource group.

Para habilitar o grupo de recursos:

  • Crie, pelo menos, um Azure Data Factory no grupo de recursos de integração compartilhada da zona de destino de dados. Use-o somente para vincular o runtime de integração auto-hospedada compartilhado, não para pipelines de dados.
  • Crie e configure um tempo de execução de integração auto-hospedado na máquina virtual.
  • Associe o tempo de execução de integração auto-hospedado às fábricas de dados do Azure na(s) sua(s) zona(s) de aterrissagem de dados.
  • Configure a Automação do Azure para atualizar periodicamente o runtime de integração auto-hospedada.

Observação

A implantação acima fornece uma única implantação de máquina virtual com tempos de execução de integração auto-hospedados. Você pode associar um runtime de integração auto-hospedada a vários computadores locais ou máquinas virtuais no Azure. Esses computadores são chamados de nós. Você pode ter até quatro nós associados a um runtime de integração auto-hospedada. Os benefícios de ter vários nós nos computadores locais com um gateway instalado para um gateway lógico são:

  • Disponibilidade superior do runtime de integração auto-hospedada para que ele não seja o único ponto de falha na sua solução de Big Data ou integração de dados de nuvem. Essa disponibilidade ajuda a garantir a continuidade quando você usa até quatro nós.
  • Desempenho e taxa de transferência aprimorados durante a movimentação de dados entre os armazenamentos de dados de nuvem e locais. Obtenha mais informações sobre comparações de desempenho.

Para associar vários nós, instale o software do runtime de integração auto-hospedada no Centro de Download. A seguir, registre-o usando uma das chaves de autenticação obtidas do cmdlet New-AzDataFactoryV2IntegrationRuntimeKey, conforme descrito no tutorial.

Outras informações são detalhadas em Alta disponibilidade e escalabilidade do Azure Datafactory.

Importante

Implante os runtimes de integração compartilhada o mais próximo possível da fonte de dados. A implantação deles não restringe a implantação dos runtimes de integração em uma zona de destino de dados ou em nuvens de terceiros. Em vez disso, ela fornece um fallback para fontes de dados nativas de nuvem na região.

Agentes de CI/CD

Os agentes de CI/CD ajudam você a implantar aplicativos de dados e alterações na zona de destino de dados.

Para obter mais informações, confira Agente de pipeline do Azure.

Ingestão independente de dados

Diagram of Data landing zone ingest and processing resource group.

Esse grupo de recursos é opcional e não proíbe a implantação da zona de destino.

Ele se aplica se você tem (ou está desenvolvendo) um mecanismo de ingestão independente de dados para ingerir dados automaticamente com base no registro de metadados (incluindo cadeias de conexão, caminho para cópia bidirecional de dados e agendamento de ingestão). O grupo de recursos de ingestão e processamento tem serviços essenciais para esse tipo de estrutura.

Implante uma instância do Banco de Dados SQL do Azure para armazenar os metadados usados pelo Azure Data Factory. Provisione um Azure Key Vault para armazenar os segredos relacionados aos serviços de ingestão automatizados. Esses segredos podem incluir:

  • Credenciais de metastore do Azure Data Factory
  • Credenciais da entidade de serviço para o processo automatizado de ingestão

Para obter mais informações, confira Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure.

Os serviços incluídos neste grupo de recursos incluem:

Serviço Obrigatório Diretrizes
Fábrica de dados do Azure Sim O data factory do Azure é o seu mecanismo de orquestração para a ingestão independente de dados.
Azure SQL DB Sim O BD SQL do Azure é o metastore para o Azure Data Factory.
Hubs de Eventos ou Hub IoT Opcional Os Hubs de Eventos ou o hub IoT pode fornecer streaming em tempo real para os Hubs de Eventos, além de processamento em lote e streaming por meio de um workspace de engenharia do Databricks.
Azure Databricks Opcional Você pode implantar o Azure Databricks ou o Azure Synapse Spark para uso com o mecanismo de ingestão independente de dados.
Azure Synapse Opcional Você pode implantar o Azure Databricks ou o Azure Synapse Spark para usá-lo com o mecanismo de ingestão independente de dados.

Databricks compartilhado

Esse grupo de recursos é opcional e só é implantado com o Azure Databricks. Todos na zona de destino de dados podem usar um workspace do Databricks.

O Azure Databricks é um consumidor essencial do serviço Azure Data Lake Storage. As operações de arquivo atômico são otimizadas para os mecanismos de análise do Spark. A otimização acelera a conclusão dos trabalhos do Spark emitidos pelo serviço Azure Databricks.

Diagram of data landing zone shared databricks resource group.

Importante

Um workspace do Azure Databricks chamado workspace do Azure Databricks (análise) é provisionado para todos os cientistas de dados e o DataOps, conforme mostrado no grupo de recursos de produtos compartilhados.

Você pode configurar esse espaço de trabalho para se conectar ao Azure Data Lake usando o controle de acesso de passagem ou tabela do Microsoft Entra. Dependendo do seu caso de uso, configure o acesso condicional como outra medida de segurança.

Siga as melhores práticas da análise em escala de nuvem para integrar o Azure Databricks:

O padrão de zona de destino do Azure recomenda que você envie todos os logs para um workspace central do Log Analytics. No entanto, cada zona de destino de dados também contém um grupo de recursos de monitoramento para capturar os logs do Spark por meio do Databricks.

Azure Synapse Analytics compartilhado

Esse grupo de recursos é opcional.

Durante a configuração inicial de uma zona de destino de dados, um workspace individual do Azure Synapse Analytics é implantado para uso por todos os cientistas e analistas de dados no grupo de recursos de produtos compartilhados.

Você pode configurar mais workspaces do Azure Synapse para produtos de dados se o gerenciamento de custos e de recarga forem necessários. As equipes de aplicativos de dados podem usar os workspaces dedicados do Azure Synapse Analytics para criar pools dedicados do Banco de Dados SQL do Azure como um armazenamento de dados de leitura usado pela camada de visualização.

Importante

Evite o uso do seu workspace compartilhado do Azure Synapse para a criação de produtos de dados bloqueando o workspace para permitir apenas consultas SQL sob demanda. Ele existe apenas para fins exploratórios.

Aplicativo de dados

Cada zona de destino de dados pode ter vários produtos de dados. Você pode criar esses produtos de dados ingerindo dados da fonte. Também é possível criar produtos de dados por meio de outros produtos de dados na mesma zona de destino de dados ou em outras zonas de destino de dados. A criação de produtos de dados está sujeita à aprovação do administrador de dados.

Grupo de recursos de produto de dados

O produto do grupo de recursos de produto de dados inclui todos os serviços necessários para compor esse produto de dados. Por exemplo, um Banco de Dados do Azure é necessário para o MySQL, que é usado por uma ferramenta de visualização. Os dados precisam ser ingeridos e transformados antes de serem inseridos nesse banco de dados MySQL. Nesse caso, você pode implantar o Banco de Dados do Azure para MySQL e um Azure Data Factory no grupo de recursos de produto de dados.

Dica

Se você optar por não implementar um mecanismo independente de dados para ingestão única de fontes operacionais ou se as conexões complexas não forem facilitadas no mecanismo independente de dados, crie um aplicativo de dados alinhado à fonte. Para saber mais, confira Aplicativos de dados (alinhado à origem)

Para saber como integrar produtos de dados, confira Produtos de dados da análise em escala de nuvem no Azure.

Visualização

Um grupo de recursos de visualização vazio é criado para cada zona de destino de dados. Preencha esse grupo de recursos com os serviços necessários para implementar sua solução de visualização. O uso da VNet existente permite que a sua solução se conecte aos produtos de dados.

Esse grupo de recursos pode hospedar máquinas virtuais para serviços de visualização de terceiros.

Dica

Devido aos custos de licenciamento, pode ser mais econômico implantar produtos de visualização de terceiros na zona de destino de gerenciamento de dados e conectar os produtos entre as zonas de destino de dados para recuperar dados.

Próximas etapas