Partilhar via


Visão geral da zona de aterrissagem do gerenciamento de dados de análise em escala de nuvem

A zona de aterrissagem de gerenciamento de dados é uma função de gerenciamento e é central para a análise em escala de nuvem. É responsável pela governança da sua plataforma de análise.

Diagram of data management landing zone overview.

Sua zona de aterrissagem de gerenciamento de dados é uma assinatura separada que tem os mesmos serviços padrão da zona de aterrissagem do Azure. Ele permite a governança de dados de seus dados por meio de rastreadores, que se conectam aos seus data lakes e armazenamento poliglota em suas zonas de aterrissagem de dados. O emparelhamento de rede virtual conecta sua zona de aterrissagem de gerenciamento de dados às suas zonas de aterrissagem de dados e assinatura de conectividade.

Use essa arquitetura como ponto de partida. Baixe o arquivo do Visio e modifique-o para atender aos seus requisitos técnicos e de negócios específicos ao planejar a implementação da zona de aterrissagem de gerenciamento de dados.

Nota

Persistência poliglota é um termo de armazenamento que descreve sua escolha entre diferentes tecnologias de armazenamento/armazenamento de dados para dar suporte aos vários tipos de dados e suas necessidades de armazenamento. Essencialmente, a persistência poliglota é o conceito de que um aplicativo pode usar mais de um banco de dados principal ou tecnologia de armazenamento.

Importante

Sua zona de aterrissagem de gerenciamento de dados deve ser implantada como uma assinatura separada em um grupo de gerenciamento com a governança apropriada. Em seguida, você pode controlar a governança em toda a sua organização. O acelerador de zona de aterrissagem do Azure ilustra como você deve abordar as zonas de aterrissagem do Azure.

Catálogo de dados

Grupo de recursos: governance-rg

O catálogo de dados registra e mantém as informações de dados em um local centralizado e as disponibiliza para a organização. Ele garante que as empresas evitem produtos de dados duplicados causados pela ingestão de dados redundantes por diferentes equipes de projeto.

Recomendamos que você provisione um serviço de catálogo de dados para definir os metadados dos produtos de dados armazenados nas zonas de aterrissagem de dados.

A análise em escala de nuvem depende do Microsoft Purview para servir como:

  • Um sistema de registo
  • Uma descoberta para fontes de dados empresariais
  • Um mecanismo de classificação de dados
  • Um repositório de políticas
  • Uma API para registrar e ler informações de dados
  • Um hub de painel de conformidade

Como o catálogo de dados faz parte da zona de aterrissagem de gerenciamento de dados, ele pode se comunicar com cada zona de aterrissagem de dados por meio de seu emparelhamento de rede virtual (VNet) e tempos de execução de integração auto-hospedados. A descoberta de produtos de dados em lojas locais e outras nuvens públicas é alcançada por mais implantações de tempos de execução de integração auto-hospedados.

Nota

Embora esta documentação se concentre principalmente no uso do Microsoft Purview para recursos de catálogo de dados e classificação de dados, as empresas podem ter investido em outros produtos, como Alation, Okera ou Collibra. Se esse for o caso, trabalhe com seu fornecedor para aplicar os princípios descritos para uma zona de aterrissagem de gerenciamento de dados o mais próximo possível. Esteja ciente de que alguma integração personalizada pode ser necessária.

Para obter mais informações, consulte Catálogo de dados e práticas recomendadas de implantação do Microsoft Purview para análises em escala de nuvem.

Gestão da qualidade dos dados

Grupo de recursos: governance-rg2

Continue com a sua solução atual.

Você deve gerenciar a qualidade dos dados o mais próximo possível da sua fonte de dados para evitar problemas de qualidade replicando em seu patrimônio de análise e IA. Mover métricas de qualidade e validação para sua integração de dados alinha o processo de qualidade com as equipes mais próximas de seus dados. Essas equipes têm a compreensão mais profunda do seu ativo de dados.

A linhagem de dados também fornece confiança na qualidade dos dados, e você deve fornecê-la para todos os produtos e produtos de dados.

Para obter mais informações sobre gerenciamento de qualidade de dados, consulte Qualidade de dados.

Repositório de modelagem de dados

Grupo de recursos: governance-rg2

Você deve capturar e armazenar modelos de relacionamento de entidade em um local central dentro de sua zona de aterrissagem de gerenciamento de dados. Isso fornece aos consumidores de dados um único lugar para encontrar diagramas conceituais.

Muitos clientes usam o ER Studio e o iServer para modelar seus produtos de dados antes da ingestão.

Gestão de dados mestres

Grupo de recursos: governance-rg2

O controle de gerenciamento de dados mestre reside na zona de aterrissagem de gerenciamento de dados. O gerenciamento de dados mestre na malha de dados contém considerações específicas que você deve chamar a atenção para malha de dados.

Muitas soluções de gerenciamento de dados mestre se integram totalmente ao Microsoft Entra ID. Essa integração permite que você proteja seus dados e forneça diferentes visualizações para diferentes grupos de usuários.

Para obter mais informações, consulte Sistema de gerenciamento de dados mestre.

Catálogo API

Grupo de recursos: governance-rg2

Suas equipes de aplicativos de dados provavelmente criarão várias APIs para seus aplicativos de dados. Essas APIs podem ser difíceis de descobrir em toda a sua organização. Colocar um catálogo de API na zona de aterrissagem do gerenciamento de dados pode resolver esse problema.

Um catálogo de API pode ajudar a padronizar sua documentação e oferece um local para colaboração interna em APIs. Ele também pode impulsionar o consumo, a publicação e os controles de governança em toda a sua organização.

Partilha de dados e contratos

Grupo de recursos: governance-rg2

A análise em escala de nuvem usa o gerenciamento de direitos do Microsoft Entra ou políticas do Microsoft Purview para controlar o acesso ao compartilhamento de dados. Mesmo assim, você ainda pode precisar de um repositório de compartilhamento e contrato. Este repositório é uma função organizacional e deve residir na sua zona de aterrissagem de gerenciamento de dados.

Seus contratos devem fornecer informações sobre validação de dados, modelos e políticas de segurança.

Para obter mais informações, consulte Contratos de dados

Registo de Contentores do Azure

Grupo de recursos: containers-rg

Sua zona de aterrissagem de gerenciamento de dados hospeda um Registro de Contêiner do Azure. O Registro de Contêiner do Azure permite que suas operações de plataforma de dados implantem contêineres padrão para uso em projetos de ciência de dados que suas equipes de aplicativos de dados consomem.

Grupo de recursos: synapse-link-rg

Os hubs de Link Privado do Azure Synapse Analytics são recursos do Azure que conectam sua rede segura e a experiência da Web do Azure Synapse Studio. A análise em escala de nuvem conecta com segurança sua Rede Virtual do Azure ao Azure Synapse Studio usando links privados desses hubs.

Há duas etapas para se conectar ao estúdio Synapse do Azure usando links privados.

  1. Crie um recurso de hub de Link Privado.
  2. Crie um ponto de extremidade privado da sua Rede Virtual do Azure para esse hub de Link Privado.

Em seguida, você pode usar pontos de extremidade privados para se comunicar com segurança com o estúdio Synapse do Azure. Integre esses pontos de extremidade privados com sua solução DNS, seja com sua solução local ou com o DNS Privado do Azure.

Para obter mais informações, consulte Conectar-se ao estúdio Synapse do Azure usando links privados.

Interfaces de automação (opcional)

Sua organização pode decidir criar muitos serviços de automação para aumentar os recursos de análise em escala de nuvem. Esses serviços de automação impulsionam a conformidade e as soluções de integração para o seu estado de análise.

Se você decidir criar esses serviços de automação, deverá ter uma interface de usuário que atue como um mercado de dados e um console de operação. Essa interface deve contar com um armazenamento de metadados subjacente, como discutimos anteriormente em Padrões de metadados.

Seu mercado de dados ou console de operações chama uma camada intermediária de microsserviços para facilitar a integração, o registro de metadados, o provisionamento de segurança, o ciclo de vida dos dados e a observabilidade.

Você pode provisionar o grupo de recursos automationdb-rg para hospedar seu repositório de metadados.

Importante

Nenhum desses serviços de automação são produtos e não ilustram nenhum item de roteiro. Eles são listados para ajudá-lo a considerar quais itens você pode querer automatizar.

Serviços

Service Âmbito do Serviço
Provisionamento da zona de aterrissagem de dados Este serviço cria uma nova zona de aterrissagem de dados. É improvável que tenha um uso alto, mas está incluído para a completude da solução de integração de ponta a ponta. Para obter mais informações, consulte Provisionar a análise em escala de nuvem
Integração de produtos de dados Esse serviço cria e altera grupos de recursos que pertencem a um locatário integrado. Ele também contém recursos para atualizar e degradar SKUs e para ativar e desativar grupos de recursos para qualquer locatário ou serviço integrado. Ele cria uma nova zona de aterrissagem de dados DevOps. Para obter mais informações, consulte Provisionar a análise em escala de nuvem
Provisionamento de acesso Este serviço cria pacotes de acesso, políticas de acesso e processo de aprovação de acesso a ativos (manual ou automático) usando SPN/UPN. Ele também pode expor uma API para fornecer uma lista de solicitações de assinatura (ativos) que os usuários enviaram nos últimos 90 dias. Para obter mais informações, consulte Gerenciamento de acesso a dados
Ingestão agnóstica de dados Esse microsserviço cria novas fontes de dados para ingestão em suas zonas de aterrissagem de dados. Ele faz isso comunicando-se com um metastore do Banco de Dados SQL do Azure Data Factory em cada zona de aterrissagem de dados. Para obter mais informações, consulte Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure
Metadados Este serviço expõe e cria metadados para a plataforma. Para obter mais informações, consulte Padrões de metadados
Ciclo de vida dos dados Este serviço é responsável por manter o ciclo de vida dos dados com base em metadados. Essa manutenção pode incluir a movimentação de dados para armazenamento refrigerado e a exclusão de registros que não precisam mais ser retidos. Para obter mais informações, consulte Gerenciamento do ciclo de vida dos dados
Integração de domínio de dados APLICÁVEL APENAS À MALHA DE DADOS. Este serviço captura metadados pertencentes a novos domínios e integra os novos domínios conforme necessário. Ele também pode criar, atualizar, ativar e desativar qualquer domínio ou linha de serviço que você possa criar em um microsserviço. Para obter mais informações, consulte Provisionar a análise em escala de nuvem

Padronização de dados

Embora não seja um recurso ou produto específico da sua zona de destino de gerenciamento de dados, você deve chamar a padronização de dados em todos os serviços. A padronização de dados define o formato no qual seus dados devem pousar e ser armazenados.

Gorjeta

Use o formato delta-lake sempre que possível como o padrão de fato em todos os serviços e armazenamento.

Para obter mais informações, consulte Padronização de dados.

Próximos passos