Gerenciamento de dados no Azure Data Lake com o Microsoft Purview

Fábrica de dados do Azure
Microsoft Purview
Armazenamento do Azure Data Lake
Azure Synapse Analytics
Power BI

Ideias de soluções

Esse artigo é uma ideia de solução. Caso deseje que ampliemos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco enviando seus comentários no GitHub.

Este artigo descreve uma solução que usa o Azure Purview para criar uma base para a governança e o gerenciamento de dados que possa produzir e fornecer dados confiáveis e de alta qualidade.

Arquitetura

Architecture diagram that shows how Azure Purview scans and classifies data.

Diagrama que mostra como o Azure Purview verifica e classifica dados. O Data Lake Storage se conecta ao Azure Purview por meio de uma plataforma de dados moderna. O Azure Purview também se conecta ao Power BI. O diagrama também mostra a integração entre esses serviços e o Microsoft Entra ID, o Azure Monitor e o Azure Key Vault.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

O Azure Purview fornece um serviço de gerenciamento de dados único e unificado para os dados de todas as fontes, no data lake e nas ferramentas de relatório final.

Cenários para conectar o Azure Purview aos serviços Data Lake:

  1. O Azure Purview fornece uma conexão de segurança aprimorada para seus pipelines de ingestão, armazenamento e análise de data lake para catalogar automaticamente os ativos de dados. Ele também fornece linhagem em todos esses serviços. Os serviços específicos do Azure incluem o Data Factory, o Data Lake Storage e o Azure Synapse Analytics.

  2. O Azure Purview se conecta nativamente ao Power BI e a outras ferramentas de relatório e visualização. Ele mostra a linhagem de dados que é usada em relatórios finais. Ele também compartilha informações confidenciais dos ativos do Power BI para evitar o uso incorreto de dados.

Importante

As informações transferidas das fontes para o Azure Purview são metadados que descrevem os dados nas fontes verificadas. Nenhum dado real é transferido das fontes para o Azure Purview.

Funcionalidades

  • Catálogo. O Catálogo de Dados do Azure Purview pode capturar e descrever automaticamente as principais características dos dados na origem, incluindo esquema, propriedades técnicas e localização. O glossário do Azure Purview permite que uma definição de dados amigável para os negócios seja colocada em camadas para melhorar a pesquisa e a descoberta.

  • Classificação. O Azure Purview classifica automaticamente conjuntos de dados e elementos de dados com 100 classificações de dados confidenciais predefinidas. Ele também permite que você defina seus próprios esquemas de classificação personalizados que você pode aplicar manual e automaticamente.

  • Linhagem. O Azure Purview visualiza diagramaticamente a linhagem entre pipelines do Data Factory, do Azure Synapse Analytics e do Power BI. Essas visualizações mostram o fluxo de dados de ponta a ponta em um nível granular.

  • Controle de acesso. A política de controle de acesso do Azure Purview permite que você defina e conceda acesso a ativos de dados do catálogo, diretamente nas fontes subjacentes.

  • Propriedade. O Azure Purview permite que você aplique a propriedade e a administração de dados a ativos de dados e itens de glossário no catálogo.

  • Insight. Os Insights no Azure Purview fornecem vários relatórios predefinidos para ajudar CDOs, profissionais de dados e profissionais de governança de dados a obter uma compreensão detalhada do cenário de dados.

Componentes

  • O Azure Purview é um catálogo de dados unificado que gerencia dados locais, multinuvem e SaaS (software como serviço). Esse serviço de governança de dados mantém mapas de paisagem de dados. Os recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados.

  • O Data Factory é um serviço de integração de dados totalmente gerenciado sem servidor que ajuda você a criar processos ETL e ELT.

  • O Azure Data Lake Storage fornece armazenamento em nuvem extremamente escalonável, de alta segurança e econômico para cargas de trabalho de análise de alto desempenho.

  • O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de Big Data.

  • O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam várias fontes de dados não relacionadas e as visualizam. Quando você usa o Power BI com o Azure Purview, ele pode catalogar e classificar seus dados e fornecer linhagem granular ilustrada de ponta a ponta.

  • O Link Privado do Azure fornece conectividade privada de uma rede virtual para serviços PaaS (plataforma como serviço), de serviços de sua propriedade ou de serviços de parceiros da Microsoft.

  • O Azure Key Vault armazena e controla o acesso a segredos, como tokens, senhas e chaves de API. O Key Vault também cria e controla chaves de criptografia e gerencia certificados de segurança.

  • O Microsoft Entra ID oferece serviços de gerenciamento de acesso e identidade baseados em nuvem do Azure. Esses recursos fornecem uma maneira para os usuários fazerem logon e acessarem recursos.

  • O Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativo, como métricas de desempenho e logs de atividade.

Detalhes do cenário

À medida que você carrega mais dados no Azure, aumenta a necessidade de governá-los e gerenciá-los adequadamente em todos os consumidores de dados e em todas as fontes de dados.

Se você não tiver dados de alta qualidade em seu estado de dados do Azure, o valor comercial do Azure será reduzido. A solução é criar uma base para a governança e o gerenciamento de dados que possa produzir e fornecer dados confiáveis e de alta qualidade.

Os dados precisam ser gerenciados em escala no armazenamento local, na nuvem e em várias nuvens para garantir que atendam aos requisitos de conformidade de segurança, privacidade e uso. Os dados bem gerenciados também podem melhorar a autodescoberta, o compartilhamento de dados e a qualidade dos dados, o que melhora o uso de dados em aplicativos e análises.

O Azure Purview fornece governança para localizar, classificar, definir e aplicar políticas e padrões entre dados. Você pode usá-lo para aplicar definições, classificações e processos de governança uniformemente entre os dados. Ele cataloga todas as fontes de dados, identifica qualquer informação confidencial e define a linhagem de dados. Ele fornece uma plataforma central onde você possa aplicar definições e propriedade aos dados. Com uma visão única sobre relatórios e insights, ele pode ajudar você a gerar padrões de dados que devem ser aplicados aos seus dados.

Trabalhando com outros serviços do Azure, o Azure Purview pode descobrir, catalogar, classificar e gerenciar dados automaticamente em ofertas do Azure Data Lake e serviços de parceiros.

Possíveis casos de uso

Os requisitos para o gerenciamento de dados diferem entre os setores. Para todos os setores, a necessidade de controlar dados em escala aumentou à medida que o tamanho e a complexidade dos dados e arquiteturas de dados crescem. Isso é apropriado para organizações que se beneficiariam dos seguintes resultados de dados bem governados:

  • Descoberta automática de dados para acelerar a adoção da nuvem.
  • Maior segurança dos dados para conformidade com leis e regulamentos de dados.
  • Melhor acesso, descoberta e qualidade dos dados gerenciados para aprimorar a análise.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas