Catálogo de Dados do Microsoft Purview guia de usuário de linhagem

Este artigo fornece uma visão geral dos recursos de linhagem de dados em Catálogo de Dados do Microsoft Purview.

Histórico

Um dos recursos de plataforma do Microsoft Purview é a capacidade de mostrar a linhagem entre conjuntos de dados criados por processos de dados. Sistemas como Data Factory, Data Share e Power BI capturam a linhagem de dados à medida que ele se move. Também há suporte para relatórios de linhagem personalizados por meio de ganchos atlas e API REST.

Coleção de linhagem

Metadados coletados no Microsoft Purview de sistemas de dados corporativos são costurados para mostrar uma linhagem de dados de ponta a ponta. Os sistemas de dados que coletam linhagem no Microsoft Purview são amplamente categorizados nos seguintes três tipos:

Cada sistema dá suporte a um nível diferente de escopo de linhagem. Verifique as seções abaixo ou o artigo de linhagem individual do sistema para confirmar o escopo da linhagem atualmente disponível.

Limitações conhecidas

  • As exibições de banco de dados usadas como fonte de atividade de processo(Azure Data Factory, Pipelines do Synapse, banco de dados SQL do Azure, Data Share do Azure) são capturadas atualmente como objetos da Tabela de Banco de Dados no Microsoft Purview. Se o Banco de Dados também for verificado, os ativos View serão descobertos separadamente no Microsoft Purview. Nesse cenário, dois ativos com o mesmo nome capturados no Microsoft Purview, um como uma Tabela com linhagem de dados e outro como exibição.
  • Se um procedimento armazenado contiver instruções suspensas ou de criação, elas não serão capturadas atualmente na linhagem.

Sistemas de processamento de dados

A integração de dados e as ferramentas ETL podem enviar linhagem por push para o Microsoft Purview no momento da execução. Ferramentas como Data Factory, Data Share, Synapse, Azure Databricks e assim por diante pertencem a essa categoria de sistemas de processamento de dados. Os sistemas de processamento de dados fazem referência a conjuntos de dados como fonte de diferentes bancos de dados e soluções de armazenamento para criar conjuntos de dados de destino. A lista de sistemas de processamento de dados atualmente integrados ao Microsoft Purview para linhagem está listada na tabela abaixo.

Sistema de processamento de dados Escopo com suporte
Fluxo Linhagem de fluxo de ar
Data Share do Azure Compartilhar instantâneo
Azure Data Factory atividade Copy
Atividade de fluxo de dados
Executar atividade de pacote SSIS
banco de dados SQL do Azure (versão prévia) Extração de linhagem para execuções de procedimentos armazenados
Azure Synapse Analytics atividade Copy
Atividade de fluxo de dados

Sistemas de armazenamento de dados

Soluções de armazenamento de bancos & de dados, como Oracle, Teradata e SAP, têm mecanismos de consulta para transformar dados usando a linguagem de script. As informações de linhagem de dados de modos de exibição/procedimentos armazenados/etc são coletadas no Microsoft Purview e costuradas com linhagem de outros sistemas. Há suporte para a linhagem para as seguintes fontes de dados por meio da verificação de dados do Microsoft Purview. Saiba mais sobre os cenários de linhagem com suporte do respectivo artigo.

Categoria Fonte de dados
Azure Azure Databricks
Banco de dados Cassandra
Db2
Google BigQuery
Banco de Dados Metastore do Hive
Mysql
Oracle
Postgresql
Snowflake
Teradata
Serviços e aplicativos Erwin
Bonita
SAP ECC
SAP S/4HANA

Análise de dados e sistemas de relatórios

Sistemas de análise de dados e relatórios, como o Azure Machine Learning e a linhagem de relatórios do Power BI no Microsoft Purview. Esses sistemas usarão os conjuntos de dados de sistemas de armazenamento e processarão por meio de seu modelo meta para criar painéis de BI, experimentos de ML e assim por diante.

Sistema de relatórios de análise de & dados Escopo com suporte
Power BI Conjuntos de dados, fluxos de dados, painéis de relatórios &

Introdução à linhagem

A linhagem no Microsoft Purview inclui conjuntos de dados e processos. Os conjuntos de dados também são chamados de nós, enquanto os processos também podem ser chamados de bordas:

  • Conjunto de dados (Nó): um conjunto de dados (estruturado ou não estruturado) fornecido como uma entrada para um processo. Por exemplo, uma Tabela SQL, blob do Azure e arquivos (como .csv e .xml), são considerados conjuntos de dados. Na seção de linhagem do Microsoft Purview, os conjuntos de dados são representados por caixas retangulares.

  • Processo (Edge): uma atividade ou transformação executada em um conjunto de dados é chamada de processo. Por exemplo, ADF atividade Copy, Data Share instantâneo e assim por diante. Na seção de linhagem do Microsoft Purview, os processos são representados por caixas de borda redonda.

Para acessar informações de linhagem de um ativo no Microsoft Purview, siga as etapas:

  1. Abra o portal de governança do Microsoft Purview por:

  2. Na página inicial do portal de governança do Microsoft Purview, pesquise um nome de conjunto de dados ou o nome do processo, como Cópia do ADF ou atividade Fluxo de Dados. E pressione Enter.

  3. Nos resultados da pesquisa, selecione o ativo e selecione sua guia Linhagem .

    Captura de tela mostrando como selecionar a guia Linhagem.

Linhagem no nível do ativo

O Microsoft Purview dá suporte à linhagem de nível de ativo para os conjuntos de dados e processos. Para ver a linhagem do nível do ativo, acesse a guia Linhagem do ativo atual no catálogo. Selecione o nó de ativo do conjunto de dados atual. Por padrão, a lista de colunas pertencentes aos dados aparece no painel esquerdo.

Captura de tela mostrando como selecionar Exibir colunas na página de linhagem.

Linhagem manual

A linhagem de dados no Microsoft Purview é automatizada para muitos ativos em ambientes locais, multicloud e SaaS. Embora continuemos a adicionar mais fontes automatizadas, a linhagem manual permite documentar metadados de linhagem para fontes em que a automação ainda não tem suporte, sem usar nenhum código.

Para adicionar linhagem manual para qualquer um de seus ativos, siga estas etapas:

  1. Pesquise seu ativo no catálogo de dados e selecione-o para exibir detalhes.

  2. Selecione Editar, navegue até a guia Linhagem e selecione Adicionar linhagem manual no painel inferior.

    Captura de tela da edição de um ativo e da adição de linhagem manual.

  3. Para configurar a linhagem de ativos:

    1. Selecione a lista suspensa de ativos para encontrar o ativo na lista sugerida ou Exibir mais para pesquisar o catálogo completo. Selecione o ativo que você gostaria de vincular.
    2. Selecione o ícone de troca para configurar a direção de relação como Produz (para linhagem downstream) ou Consuma (para upstream linhagem).
    3. Se você quiser excluir uma linhagem, selecione o ícone de lata de lixo.

    Captura de tela de uma página de linhagem de ativo de dados, com a lista suspensa do ativo realçada.

  4. Ao adicionar linhagem entre dois ativos de dados, você também pode configurar a linhagem do nível da coluna. Selecione o ícone de expansão no início da linha, selecione as colunas upstream e downstream nas listas suspensas correspondentes para configurar o mapeamento de colunas. Selecione o ícone de adição para adicionar mais linhagem de coluna; selecione o ícone lixeira para excluir os existentes.

    Captura de tela da configuração da linhagem de nível de coluna.

  5. Você pode adicionar mais linhagem de nível de ativo selecionando o botão Adicionar linhagem manual novamente. Quando terminar, selecione o botão Salvar para salvar sua linhagem e sair do modo de edição.

Limitações conhecidas da linhagem manual

  • A experiência atual do seletor de ativos permite selecionar apenas um ativo por vez.
  • Atualmente, há suporte para linhagem manual de nível de coluna para linhagem entre dois ativos de dados, embora não haja suporte quando o ativo de processo está envolvido no meio.
  • Acesso à curadoria de dados necessário para ativos de origem e de destino.
  • Atualmente, esses tipos de ativos não permitem linhagem manual porque dão suporte à linhagem automatizada:
    • Azure Data Factory
    • Pipelines do Synapse
    • Conjuntos de dados do Power BI
    • Procedimento armazenado do Teradata
    • SQL do Azure procedimento armazenado

Linhagem de coluna do conjunto de dados

Para ver a linhagem no nível da coluna de um conjunto de dados, acesse a guia Linhagem do ativo atual no catálogo e siga as etapas a seguir:

  1. Depois de estar na guia linhagem, no painel esquerdo, selecione a caixa marcar ao lado de cada coluna que você deseja exibir na linhagem de dados.

    Captura de tela mostrando como selecionar colunas a serem exibidas na página de linhagem.

  2. Passe o mouse sobre uma coluna selecionada no painel esquerdo ou no conjunto de dados da tela de linhagem para ver o mapeamento da coluna. Todas as instâncias de coluna são realçadas.

    Captura de tela mostrando como passar o mouse sobre um nome de coluna para realçar o fluxo de coluna em um caminho de linhagem de dados.

  3. Se o número de colunas for maior do que o que pode ser exibido no painel esquerdo, use a opção de filtro para selecionar uma coluna específica pelo nome. Como alternativa, você pode usar o mouse para percorrer a lista.

    Captura de tela mostrando como filtrar colunas pelo nome da coluna na página de linhagem.

  4. Se a tela de linhagem contiver mais nós e bordas, use o filtro para selecionar ativo de dados ou processar nós pelo nome. Como alternativa, você pode usar o mouse para contornar a janela de linhagem.

    Captura de tela mostrando nós do ativo de dados pelo nome na página de linhagem.

  5. Use o alternância no painel esquerdo para realçar a lista de conjuntos de dados na tela de linhagem. Se você desativar o alternância, qualquer ativo que contenha pelo menos uma das colunas selecionadas será exibido. Se você ativar o alternância, somente conjuntos de dados que contêm todas as colunas serão exibidos.

    Captura de tela mostrando como usar o alternância para filtrar a lista de nós na página de linhagem.

Processar linhagem de coluna

Você também pode exibir processos de dados, como atividades de cópia, no catálogo de dados. Por exemplo, neste fluxo de linhagem, selecione a atividade de cópia:

Captura de tela de um fluxo de linhagem de dados com um dos nós de atividade de cópia realçados.

A atividade de cópia será expandida e você poderá selecionar o botão Alternar para ativo , o que lhe dará mais detalhes sobre o processo em si.

Captura de tela do nó de atividade de cópia expandido e o novo botão alternar para ativo selecionado.

O processo de dados pode levar um ou mais conjuntos de dados de entrada para produzir uma ou mais saídas. No Microsoft Purview, a linhagem de nível de coluna está disponível para nós de processo.

  1. Alternar entre conjuntos de dados de entrada e saída de uma lista suspensa no painel de colunas.

  2. Selecione colunas de uma ou mais tabelas para ver a linhagem que flui do conjunto de dados de entrada para o conjunto de dados de saída correspondente.

    Captura de tela mostrando a linhagem de colunas de um nó de processo.

Procurar ativos na linhagem

  1. Selecione Alternar para ativo em qualquer ativo para exibir seus metadados correspondentes na exibição de linhagem. Fazer isso é uma maneira eficaz de navegar até outro ativo no catálogo a partir do modo de exibição de linhagem.

    Captura de tela como selecionar Alternar para ativo em um ativo de dados de linhagem.

  2. A tela de linhagem pode se tornar complexa para conjuntos de dados populares. Para evitar desordem, o modo de exibição padrão mostrará apenas cinco níveis de linhagem para o ativo em foco. O restante da linhagem pode ser expandida selecionando as bolhas na tela de linhagem. Os consumidores de dados também podem ocultar os ativos na tela que não são de interesse. Para reduzir ainda mais a desordem, desative o alternância Mais Linhagem na parte superior da tela de linhagem. Essa ação ocultará todas as bolhas na tela de linhagem.

    Captura de tela mostrando como alternar mais linhagem.

  3. Use os botões inteligentes na tela de linhagem para obter uma exibição ideal da linhagem:

    1. Tela inteira
    2. Zoom para ajustar
    3. Ampliar/reduzir
    4. Alinhamento automático
    5. Visualização de zoom
    6. E mais opções:
      1. Centralizar o ativo atual
      2. Redefinir para exibição padrão

    Captura de tela mostrando como selecionar os botões inteligentes de linhagem.

Próximas etapas