Partilhar via


Práticas recomendadas de implantação do Microsoft Purview para análise em escala de nuvem

A zona de aterrissagem de gerenciamento de dados é responsável pela governança da plataforma de análise em escala de nuvem. Ele depende do Microsoft Purview para fornecer a maioria dos recursos de gerenciamento de dados.

Nota

Esta orientação nesta seção explica as configurações específicas para análises em escala de nuvem. É uma coleção de práticas recomendadas do Azure para aprimorar sua governança de dados usando o Microsoft Purview. A orientação complementa a documentação oficial do Microsoft Purview.

Descrição geral

O Microsoft Purview é um serviço unificado de governança de dados que ajuda você a gerenciar e controlar seus dados locais, multinuvem e software como serviço (SaaS). Crie um mapa holístico e atualizado do seu cenário de dados com descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados de ponta a ponta. Permita que curadores de dados gerenciem e protejam seu patrimônio de dados. Capacite os consumidores de dados a encontrar dados valiosos e fidedignos.

Gorjeta

Recomendamos o uso de ferramentas de terceiros de sua escolha para integrar os recursos restantes da zona de aterrissagem de gerenciamento de dados com o Azure que atualmente não são suportados pelo Microsoft Purview.

Uma conta do Microsoft Purview é implantada dentro da zona de aterrissagem de gerenciamento de dados, que serve como um catálogo de dados centralizado. A partir da zona de aterrissagem de gerenciamento de dados, o Microsoft Purview pode se comunicar com cada zona de aterrissagem de dados por meio de conectividade de rede privada usando emparelhamento VNet entre gerenciamento de dados, zonas de aterrissagem de dados e tempos de execução de integração auto-hospedados. A descoberta de produtos de dados em armazenamentos de dados locais e outras nuvens públicas é alcançada por mais implantações de tempos de execução de integração auto-hospedados.

Configuração da conta

A primeira etapa é a implantação de uma conta Microsoft Purview. Durante a implantação da zona de aterrissagem de gerenciamento de dados, uma única conta do Microsoft Purview é implantada automaticamente dentro da assinatura de gerenciamento de dados. O objetivo é centralizar todo o mapa de dados em uma única conta do Microsoft Purview em todas as zonas de aterrissagem de dados. Recomendamos que você considere uma única conta compartilhada do Microsoft Purview dentro da assinatura da zona de destino de gerenciamento de dados por tipo de ambiente.

Além da conta do Microsoft Purview, um grupo de recursos gerenciados também é implantado. Uma conta de armazenamento gerenciado e um namespace de Hubs de Eventos gerenciado são implantados dentro desse grupo de recursos e usados para ingerir metadados de ativos de dados por meio de verificações. Como esses recursos são consumidos pelo catálogo do Microsoft Purview, eles não devem ser removidos. Uma atribuição de negação RBAC de controle de acesso baseada em função do Azure é adicionada automaticamente para todas as entidades no nível do grupo de recursos no momento da implantação.

Pré-requisitos

Antes da implantação, revise os seguintes requisitos dentro da sua assinatura da zona de destino de gerenciamento de dados:

  • Fazer isenções de política: se você tiver uma atribuição de Política do Azure existente que impeça administradores ou aplicativos de criar contas de Armazenamento do Azure, namespace de Hubs de Eventos do Azure, contas do Microsoft Purview, zonas de DNS Privado do Azure ou pontos de extremidade privados do Azure, você deverá aplicar isenções da Política do Azure. As isenções são necessárias, para que os recursos necessários possam ser implantados na zona de aterrissagem de gerenciamento de dados, juntamente com a implantação do Microsoft Purview.
  • Registrar provedores de recursos: certifique-se de registrar os seguintes provedores de recursos do Azure na assinatura da zona de aterrissagem de gerenciamento de dados:
    • Microsoft.EventHub
    • Microsoft.Purview
    • Microsoft.Storage

Importante

Para implantar com êxito a zona de aterrissagem de gerenciamento de dados com o Microsoft Purview, os pré-requisitos devem ser atendidos. Para saber mais sobre como registrar provedores de recursos, consulte Provedores de recursos para serviços do Azure.

Rede e resolução de nomes

A análise em escala de nuvem usa um ponto de extremidade privado do Azure para habilitar o acesso seguro ao catálogo, alimentado pelo Azure Private Link. O ponto de extremidade privado usa endereços IP do espaço de endereço VNet para sua conta do Microsoft Purview. O tráfego de rede entre os clientes na VNet e a conta do Microsoft Purview atravessa a VNet e um Link Privado na rede de backbone da Microsoft. A VNet e o Private Link eliminam a exposição da internet pública. Para habilitar o isolamento de rede para cenários de verificação de ponta a ponta, mais pontos de extremidade privados são implantados. Os pontos de extremidade privados permitem que as fontes de dados no Azure e as fontes locais sejam conectadas por meio do Azure Private Link.

Implantação do ponto de extremidade privado do Azure

A conta do Microsoft Purview é implantada dentro da rede virtual do Azure (VNet) dentro da zona de aterrissagem de gerenciamento de dados com vários pontos de extremidade privados:

  • Conta: Um ponto de extremidade privado é usado para permitir apenas chamadas de cliente para o Microsoft Purview originadas de dentro da rede privada. É necessário como pré-requisito para um ponto de extremidade privado do portal .

  • Portal: Um ponto de extremidade privado destina-se a fornecer conectividade privada ao portal de governança do Microsoft Purview. O portal de governança do Microsoft Purview é a interface do usuário de gerenciamento que permite acessar e gerenciar o Microsoft Purview a partir de um navegador da Web.

  • Ingerir pontos de extremidade privados para verificar fontes de dados IaaS e PaaS do Azure dentro da Rede Virtual do Azure e fontes de dados locais por meio de uma conexão privada. Este método garante o isolamento da rede para os seus metadados que fluem das origens de dados para o Mapa de Dados do Microsoft Purview.

Diagram of Microsoft Purview Networking.

Importante

Para verificar com êxito as fontes de dados no Microsoft Purview, um tempo de execução de integração auto-hospedado deve ser implantado dentro da mesma rede virtual em que os pontos de extremidade privados de ingestão do Microsoft Purview são implantados, que podem estar dentro da zona de aterrissagem de gerenciamento de dados ou de quaisquer zonas de aterrissagem de dados.

Para obter mais informações sobre a rede da zona de aterrissagem de gerenciamento de dados, consulte Rede de análise em escala de nuvem.

Para obter mais informações sobre pontos de extremidade privados do Microsoft Purview, consulte Usar pontos de extremidade privados para sua conta do Microsoft Purview.

Ponto de extremidade privado para conta e portal

Para gerenciar a propriedade de dados usando o Microsoft Purview e conectar-se ao portal de governança do Microsoft Purview, você deve usar a conectividade privada. O acesso público é restrito à conta do Microsoft Purview implantada dentro da zona de aterrissagem de gerenciamento de dados para adicionar mais segurança. Os pontos de extremidade privados da conta e do portal são implantados para fornecer conectividade privada à sua conta do Microsoft Purview e acesso ao portal de governança do Microsoft Purview.

Acesso ao portal de governança Microsoft Purview

Para manter o uso do portal Microsoft Purview por meio da conectividade privada, recomendamos negar o acesso à rede pública nas configurações do Microsoft Purview. Para se conectar ao portal de governança do Microsoft Purview, é necessária uma máquina de salto ou uma caixa de salto implantada em sua rede. Você pode usar uma máquina da rede híbrida ou como uma máquina virtual dentro da zona de aterrissagem de gerenciamento de dados. Uma máquina de salto é um servidor de acesso remoto protegido, que normalmente usa os Serviços de Área de Trabalho Remota da Microsoft ou o software Secure Shell (SSH). As máquinas de salto funcionam como um ponto de passo para os administradores que acessam sistemas críticos com todas as ações administrativas feitas a partir do host dedicado.

Use qualquer uma destas opções para gerenciar seus dados usando o Microsoft Purview por meio do portal de governança do Microsoft Purview:

  • Opção 1: Use uma máquina de salto conectada à rede corporativa. Para usar esse modelo de conectividade, você deve ter conectividade entre a rede virtual onde o ponto de extremidade privado do portal Microsoft Purview é criado e sua rede corporativa.

    Analise a rede do Cloud Adoption Framework para obter mais informações , topologia de rede e visão geral de conectividade.

  • Opção 2: Se a conectividade híbrida não estiver disponível em sua organização, implante uma máquina virtual dentro da zona de aterrissagem de gerenciamento de dados. Implante o Azure Bastion para se conectar ao Microsoft Purview usando uma conexão segura.

Parâmetros de avaliação privados para ingestão

O Microsoft Purview pode verificar fontes de dados no Azure ou em ambientes locais usando pontos de extremidade privados ou públicos. A rede de uma zona de aterrissagem de dados é emparelhada automaticamente com a VNet da zona de aterrissagem de gerenciamento de dados e a VNet de assinatura de conectividade. Assim, as fontes de dados dentro das zonas de aterrissagem de dados podem ser verificadas usando conectividade privada.

Recomendamos habilitar pontos de extremidade privados para outras fontes de dados dentro de suas zonas de aterrissagem e verificar fontes de dados usando conectividade privada.

Resolução de nomes

A resolução de DNS para pontos de extremidade privados deve ser tratada por meio de zonas DNS privadas centrais do Azure. As seguintes zonas DNS privadas são implantadas automaticamente na implantação do Microsoft Purview na zona de aterrissagem de gerenciamento de dados:

  • privatelink.purview.azure.com
  • privatelink.purviewstudio.azure.com
  • privatelink.blob.core.windows.net
  • privatelink.queue.core.windows.net
  • privatelink.servicebus.windows.net

Diagram of high Level name resolution architecture.

Se você tiver uma nuvem híbrida e a resolução de nomes entre locais for necessária, é importante configurar os servidores DNS locais corretamente para encaminhar as solicitações apropriadas para o servidor DNS personalizado no Azure.

  • Se você já tiver DNS personalizado no Azure, precisará configurar encaminhadores condicionais em seu servidor DNS local apontando para ele.

  • Se você não tiver uma VM DNS personalizada no Azure, poderá implantar o conjunto de escala de máquina virtual do Azure que inclui NGINX já configurado para encaminhar solicitações DNS para IP 168.63.129.16DNS fornecido pelo Azure. Para obter mais informações, consulte Implantar conjunto de escala de máquina virtual de um proxy DNS NGINX em uma rede virtual existente.

Gorjeta

Para permitir a resolução de nomes entre a zona de aterrissagem de gerenciamento de dados e as zonas de aterrissagem de dados, use as mesmas zonas DNS privadas localizadas dentro do grupo de recursos dentro {prefix}-global-dns da zona de aterrissagem de gerenciamento de dados.

Para obter mais informações relacionadas à rede de análise em escala de nuvem e resolução de nomes, consulte Rede de análise em escala de nuvem

Gerenciar autenticação para fontes de dados no Microsoft Purview

O Microsoft Purview requer acesso ao plano de controle e ao plano de dados para registrar e verificar fontes de dados.

Registar origens de dados

Quando você implanta a conta do Microsoft Purview, uma identidade gerenciada atribuída ao sistema é criada automaticamente. Ele é criado no locatário do Microsoft Entra e atribuído a este recurso. Para ler e listar recursos do Azure em uma assinatura ou grupo de recursos ao registrar fontes de dados no Microsoft Purview, a identidade gerenciada do Microsoft Purview requer a função Leitor RBAC do Azure no escopo.

Considere atribuir a função Reader à identidade gerenciada do Microsoft Purview em cada assinatura de zona de aterrissagem de dados antes de registrar qualquer uma dessas fontes de dados no Microsoft Purview:

  • Armazenamento de Blobs do Azure
  • Armazenamento do Azure Data Lake Ger1
  • Armazenamento do Azure Data Lake Ger2
  • Base de Dados SQL do Azure
  • Instância Gerida do SQL do Azure
  • Azure Synapse Analytics

Verificar fontes de dados

Antes de executar novas verificações, certifique-se de ter concluído os seguintes requisitos:

Implantar e registrar tempos de execução de integração auto-hospedados

Implante e registre VMs de tempo de execução de integração (IR) auto-hospedadas para cada zona de aterrissagem de dados. Os IRs auto-hospedados são necessários para verificar fontes de dados, como o Banco de Dados SQL do Azure ou qualquer fonte de dados baseada em VM. Essas fontes de dados podem estar no local ou em cada uma das zonas de aterrissagem de dados. Um RI auto-hospedado pode executar atividades de cópia entre um armazenamento de dados na nuvem e um armazenamento de dados em uma rede privada. Também pode distribuir atividades de transformação em relação aos recursos de computação numa rede no local ou numa rede virtual do Azure. A instalação de um IR auto-hospedado precisa de uma máquina local ou uma máquina virtual dentro de uma rede privada.

Gorjeta

Recomendamos que você use uma máquina dedicada para hospedar o IR. A máquina deve ser separada do servidor que hospeda o armazenamento de dados. Além disso, é altamente recomendável planejar pelo menos duas VMs de IR auto-hospedadas em cada zona de aterrissagem de dados ou ambiente local.

Para verificar fontes de dados locais, os IRs auto-hospedados podem ser implantados dentro de sua rede local, no entanto, para verificar fontes de dados localizadas no Azure, os IRs auto-hospedados devem ser implantados na mesma VNet que os pontos de extremidade privados de ingestão do Microsoft Purview. Recomenda-se implantar novos pontos de extremidade privados de ingestão e novos RIs auto-hospedados por região onde as fontes de dados estão localizadas.

Talvez você queira hospedar uma carga de trabalho simultânea crescente. Ou você pode querer obter um desempenho mais alto em seu nível de carga de trabalho atual. Você pode melhorar a escala de processamento usando uma destas abordagens:

  • Aumente a escala quando o processador e a memória do nó estiverem subutilizados
  • Dimensione o IR auto-hospedado adicionando mais nós ou conjuntos de dimensionamento de máquina virtual

Atribuir acesso ao plano de dados para verificar fontes de dados

Para fornecer acesso ao Microsoft Purview no plano de dados e a fontes de dados, há várias opções para configurar a autenticação:

  • Opção 1: Identidade gerenciada
  • Opção 2: Chave de conta ou palavras-passe armazenadas no Cofre de Chaves do Azure como um segredo
  • Opção 3: Entidade de serviço armazenada no Cofre da Chave do Azure como um segredo

Importante

Para verificar fontes de dados por meio do Azure Private Link no Microsoft Purview, você deve implantar um tempo de execução de integração auto-hospedado e usar a chave de conta/Autenticação SQL ou a entidade de serviço das opções de autenticação para fontes de dados.

Gorjeta

Quando uma fonte de dados não pode usar o Azure Private Link, recomendamos usar a identidade gerenciada do Microsoft Purview para verificar fontes de dados. Neste caso, tem de permitir o acesso público nas definições de firewall da sua conta Microsoft Purview.

Armazenar segredos dentro do Azure Key Vault

Vários recursos do Azure Key Vault são implantados dentro da zona de aterrissagem de gerenciamento de dados e das assinaturas da zona de aterrissagem de dados. Os recursos do Azure Key Vault armazenam segredos relacionados a fontes de metadados na zona de aterrissagem de gerenciamento de dados e fontes de dados. Um exemplo de uma fonte de dados é o Banco de Dados SQL do Azure consumido pelo Azure Data Factory. Ou o Banco de Dados do Azure para MySQL usado por espaços de trabalho Databricks na zona de aterrissagem de dados.

Conectar zonas de aterrissagem de dados Cofres de chaves do Azure à sua conta do Microsoft Purview

O Microsoft Purview pode usar os segredos e credenciais armazenados nos cofres de chaves do Azure. Eles só podem ser usados se você criar a conexão do Cofre da Chave do Azure dentro da conta do Microsoft Purview e o segredo for registrado. Depois de adicionar uma nova zona de aterrissagem de dados, você deve criar uma nova conexão do Cofre da Chave do Azure dentro da conta do Microsoft Purview. A conexão é uma associação um-para-um do recurso Azure Key Vault com a conta do Microsoft Purview. Ele permitirá a criação de credenciais dentro da conta do Microsoft Purview com base nos segredos armazenados no Cofre da Chave do Azure.

Para obter mais informações, consulte Criar conexões do Azure Key Vault em sua conta do Microsoft Purview.

Gorjeta

Remova todos os cofres de chaves do Azure não utilizados para minimizar as conexões do Cofre da Chave.

Criar credenciais dentro do Microsoft Purview

Pode ser necessário configurar uma Credencial usando um Segredo do cofre de chaves para cenários específicos:

  • Para verificar quaisquer fontes de dados em que a identidade gerenciada do Microsoft Purview não possa ser usada como método de autenticação.
  • Para verificar quaisquer fontes de dados usando um tempo de execução de integração auto-hospedado, os tipos de autenticação suportados, como chaves de conta, autenticação SQL (senha) ou entidade de serviço, devem ser armazenados em uma credencial.
  • Para verificar fontes de dados usando um ponto de extremidade privado para ingestão de dados.
  • Para verificar fontes de dados que estão dentro de uma máquina virtual ou dentro de um ambiente local.

Antes de criar quaisquer credenciais no Microsoft Purview, sua conta do Microsoft Purview deve ter acesso aos segredos do Azure Key Vault. Use a política de acesso do Cofre da Chave do Azure ou o RBAC (controle de acesso baseado em função) para conceder à Microsoft Purview a identidade de serviço gerenciado (MSI) o acesso necessário. Para obter mais informações sobre como conceder acesso MSI do Microsoft Purview ao Cofre da Chave do Azure e criar credenciais dentro do Microsoft Purview, consulte Credenciais para autenticação de origem no Microsoft Purview.

Funções do Microsoft Purview e controle de acesso

O Microsoft Purview tem várias funções internas, como leitor de dados, curador de dados, administrador de coleção, administrador de fonte de dados e autor de políticas para gerenciar o plano de dados, que podem ser combinados para fornecer mais privilégios. Por exemplo, a função Leitor de dados é direcionada para funções como diretores de dados, administradores de dados e diretores de segurança que exigem acesso somente leitura ao conjunto de dados. A propriedade de dados pode incluir classificações, linhagem através de opções de pesquisa e relatórios disponíveis no Microsoft Purview.

Quando a implantação da zona de aterrissagem de gerenciamento de dados estiver concluída, use o modelo de menor privilégio para fornecer acesso para exibir ou gerenciar metadados no Microsoft Purview.

Importante

As funções do plano de dados do Microsoft Purview devem ser gerenciadas dentro do portal de governança do Microsoft Purview ou usando a API diretamente.

Para obter mais informações sobre as funções do Microsoft Purview, consulte Controle de acesso no plano de dados do Microsoft Purview

Analise a lista a seguir de personas envolvidas em uma implantação de análise em escala de nuvem. Atribua-lhes as funções relevantes do Microsoft Purview para que possam contribuir para o sucesso da implantação:

Persona Função Função recomendada do Microsoft Purview
Proprietários de produtos Os proprietários de produtos usam o Azure para transformar suas soluções, trazer agilidade aos negócios e otimizar os processos de negócios. Leitor de Dados
Arquitetos de soluções Defina soluções para ultrapassar os limites da rede empresarial empresarial. Saiba como lidar com diagnóstico, análise, design, implantação e integração de serviços do Azure.
  • Administrador da fonte de dados
  • Curador de Dados
  • Desenvolvedores e engenheiros de DevOps Projete, crie, implante, teste e mantenha a integração contínua e o processo de entrega com o Azure DevOps ou o GitHub. Não aplicável
    Engenheiros de segurança Permita que suas equipes projetem e implementem uma infraestrutura segura no Azure usando as práticas recomendadas.
  • Administrador de Coleções
  • Leitor de Dados
  • Gestores técnicos e de negócios Crie uma compreensão geral dos serviços do Azure. Controle seus custos de nuvem e otimize suas operações e a agilidade de sua equipe. Não aplicável
    Decisores e utilizadores empresariais Use o Azure para acessar informações acionáveis, esperando que elas sejam entregues da forma mais relevante. Use IA incorporada em soluções existentes para otimizar os processos de negócios. Leitor de Dados
    Gestores de dados Responsável pelo provisionamento e gerenciamento de acesso a ativos de dados. Leitor de dados ou curador de dados
    Analistas de dados e analistas de desempenho Use o Azure para descobrir e compartilhar novas informações de ativos de dados existentes ou dados ad hoc . Crie transformações de IA com um clique, consuma modelos pré-construídos e gere facilmente modelos de aprendizado de máquina.
  • Administrador da fonte de dados
  • Leitor de Dados
  • Engenheiros de dados Use o Azure para criar, integrar e gerenciar produtos de dados e análises. Crie aplicativos e soluções habilitados para IA quando aplicável.
  • Administrador da fonte de dados
  • Curador de Dados
  • Cientistas de dados cidadãos Crie modelos de aprendizagem automática através de poderosas ferramentas visuais, de arrastar e largar e sem código, onde não é necessária codificação
  • Administrador da fonte de dados
  • Curador de Dados
  • Cientistas de dados Use suas ferramentas preferidas e estruturas de aprendizado de máquina para criar soluções escaláveis de ciência de dados. Acelere o ciclo de vida completo do aprendizado de máquina.
  • Administrador da fonte de dados
  • Curador de Dados
  • Engenheiros de aprendizado de máquina Habilite os processos e a infraestrutura corretos para facilitar a implantação e o gerenciamento de modelos.
  • Administrador da fonte de dados
  • Curador de Dados
  • Para obter mais informações sobre funções de dados, consulte Funções e equipes.

    Próximos passos

    Azure Machine Learning como um produto de dados para análise em escala de nuvem