Editar

Gerenciamento de dados no Azure Data Lake com o Microsoft Purview

Azure Data Factory
Microsoft Purview
Azure Data Lake Storage
Azure Synapse Analytics
Power BI

Ideias de soluções

Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.

Este artigo descreve uma solução que usa o Azure Purview para criar uma base para governança e gerenciamento de dados que pode produzir e fornecer dados confiáveis de alta qualidade.

Arquitetura

Architecture diagram that shows how Azure Purview scans and classifies data.

Diagrama que mostra como o Azure Purview verifica e classifica dados. O Armazenamento Data Lake liga-se ao Azure Purview através de uma plataforma de dados moderna. O Azure Purview também se conecta ao Power BI. O diagrama também mostra a integração entre esses serviços e o Microsoft Entra ID, o Azure Monitor e o Azure Key Vault.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

O Azure Purview fornece um serviço de gerenciamento de dados único e unificado para os dados de todas as fontes, no data lake e nas ferramentas de relatórios finais.

Cenários para conectar o Azure Purview aos serviços do Data Lake:

  1. O Azure Purview fornece uma conexão de segurança aprimorada para seus pipelines de ingestão, armazenamento e análise de data lake para catalogar automaticamente os ativos de dados. Ele também fornece linhagem através desses serviços. Os serviços específicos do Azure incluem o Data Factory, o Data Lake Storage e o Azure Synapse Analytics.

  2. O Azure Purview liga-se nativamente ao Power BI e a outras ferramentas de relatório e visualização. Ele mostra a linhagem de dados que é usada nos relatórios finais. Ele também compartilha informações confidenciais dos ativos do Power BI para evitar o uso incorreto de dados.

Importante

As informações transferidas das fontes para o Azure Purview são metadados que descrevem os dados dentro das fontes verificadas. Nenhum dado real é transferido das fontes para o Azure Purview.

Capacidades

  • Catálogo. O Catálogo de Dados do Azure Purview pode capturar e descrever automaticamente as principais características dos dados na origem, incluindo esquema, propriedades técnicas e localização. O glossário do Azure Purview permite que uma definição de dados amigável para os negócios seja colocada em camadas, para melhorar a pesquisa e a descoberta.

  • Classificação. O Azure Purview classifica automaticamente conjuntos de dados e elementos de dados com 100 classificações de dados confidenciais predefinidas. Ele também permite que você defina seus próprios esquemas de classificação personalizados que você pode aplicar manual e automaticamente.

  • Linhagem. O Azure Purview visualiza diagrammaticamente a linhagem entre pipelines do Data Factory, Azure Synapse Analytics e Power BI. Essas visualizações mostram o fluxo de dados de ponta a ponta em um nível granular.

  • Controlo de acessos. A política de controle de acesso do Azure Purview permite definir e conceder acesso a ativos de dados do catálogo, diretamente nas fontes subjacentes.

  • Apropriação. O Azure Purview permite que você aplique a propriedade e a administração de dados a ativos de dados e itens de glossário no catálogo.

  • Perceção. O Insights no Azure Purview fornece vários relatórios predefinidos para ajudar CDOs, profissionais de dados e profissionais de governança de dados a obter uma compreensão detalhada do cenário de dados.

Componentes

  • O Azure Purview é um catálogo de dados unificado que gerencia dados locais, multicloud e SaaS (software como serviço). Este serviço de governança de dados mantém mapas de paisagem de dados. Os recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados.

  • O Data Factory é um serviço de integração de dados totalmente gerenciado e sem servidor que ajuda você a construir processos ETL e ELT.

  • O Data Lake Storage fornece armazenamento em nuvem massivamente escalável, de alta segurança e econômico para cargas de trabalho de análise de alto desempenho.

  • O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de big data.

  • O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam e visualizam várias fontes de dados. Quando você usa o Power BI com o Azure Purview, ele pode catalogar e classificar seus dados e fornecer linhagem granular ilustrada de ponta a ponta.

  • O Azure Private Link fornece conectividade privada de uma rede virtual para serviços de plataforma como serviço (PaaS), serviços de sua propriedade ou serviços de parceiros da Microsoft.

  • O Azure Key Vault armazena e controla o acesso a segredos como tokens, palavras-passe e chaves de API. O Cofre de Chaves também cria e controla chaves de criptografia e gerencia certificados de segurança.

  • O Microsoft Entra ID oferece serviços de gerenciamento de identidade e acesso baseados em nuvem. Esses recursos fornecem uma maneira para os usuários entrarem e acessarem recursos.

  • O Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativos, como métricas de desempenho e registros de atividades.

Detalhes do cenário

À medida que você carrega mais dados no Azure, a necessidade de governar e gerenciar adequadamente esses dados em todas as suas fontes de dados e consumidores de dados também cresce.

Se você não tiver dados de alta qualidade em seu conjunto de dados do Azure, o valor comercial do Azure será reduzido. A solução é construir uma base para governança e gerenciamento de dados que possa produzir e fornecer dados confiáveis e de alta qualidade.

Os dados precisam ser gerenciados em escala no armazenamento local, na nuvem e em várias nuvens para garantir que atendam aos requisitos de conformidade de segurança, privacidade e uso. Dados bem gerenciados também podem melhorar a autodescoberta, o compartilhamento de dados e a qualidade dos dados, o que melhora o uso de dados em aplicativos e análises.

O Azure Purview fornece governança para localizar, classificar, definir e aplicar políticas e padrões em dados. Você pode usá-lo para aplicar definições, classificações e processos de governança uniformemente nos dados. Ele cataloga todas as fontes de dados, identifica qualquer informação sensível e define a linhagem de dados. Ele fornece uma plataforma central onde você pode aplicar definições e propriedade aos dados. Com uma visão única sobre relatórios e insights, ele pode ajudá-lo a gerar padrões de dados que devem ser aplicados aos seus dados.

Trabalhando com outros serviços do Azure, o Azure Purview pode descobrir, catalogar, classificar e gerenciar dados automaticamente nas ofertas do Azure Data Lake e nos serviços de parceiros.

Potenciais casos de utilização

Os requisitos para o gerenciamento de dados diferem entre os setores. Para todos os setores, a necessidade de controlar dados em escala aumentou à medida que o tamanho e a complexidade dos dados e arquiteturas de dados crescem. Isso é apropriado para organizações que se beneficiariam dos seguintes resultados de dados bem governados:

  • Descoberta automática de dados para acelerar a adoção da nuvem.
  • Maior segurança dos dados para conformidade com as leis e regulamentos de dados.
  • Acesso, descoberta e qualidade aprimorados de dados gerenciados para aprimorar as análises.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos