Partilhar via


guia do utilizador da linhagem Catálogo de Dados do Microsoft Purview

Este artigo fornece uma descrição geral das funcionalidades de linhagem de dados no Catálogo de Dados do Microsoft Purview.

Histórico

Uma das funcionalidades da plataforma do Microsoft Purview é a capacidade de mostrar a linhagem entre conjuntos de dados criados por processos de dados. Sistemas como o Data Factory, o Data Share e o Power BI capturam a linhagem de dados à medida que se movem. Os relatórios de linhagem personalizados também são suportados através de hooks Atlas e API REST.

Coleção de linhagem

Os metadados recolhidos no Microsoft Purview a partir de sistemas de dados empresariais são cosidos para mostrar uma linhagem de dados ponto a ponto. Os sistemas de dados que recolhem linhagem no Microsoft Purview são amplamente categorizados nos seguintes três tipos:

Cada sistema suporta um nível diferente de âmbito de linhagem. Verifique as secções abaixo ou o artigo de linhagem individual do seu sistema para confirmar o âmbito da linhagem atualmente disponível.

Limitações conhecidas

  • As Vistas de Base de Dados utilizadas como origem da atividade do processo (Azure Data Factory, Pipelines do Synapse, Base de Dados SQL do Azure, Data Share do Azure) são atualmente capturadas como objetos de Tabela de Base de Dados no Microsoft Purview. Se a Base de Dados também for analisada, os recursos ver são detetados separadamente no Microsoft Purview. Neste cenário, dois recursos com o mesmo nome capturados no Microsoft Purview, um como uma Tabela com linhagem de dados e outro como uma Vista.
  • Se um procedimento armazenado contiver instruções de remoção ou criação, estas não são atualmente capturadas na linhagem.

Sistemas de processamento de dados

A integração de dados e as ferramentas ETL podem emitir linhagem para o Microsoft Purview no momento da execução. Ferramentas como o Data Factory, Data Share, Synapse, Azure Databricks, etc., pertencem a esta categoria de sistemas de processamento de dados. Os sistemas de processamento de dados referenciam conjuntos de dados como origem de diferentes bases de dados e soluções de armazenamento para criar conjuntos de dados de destino. A lista de sistemas de processamento de dados atualmente integrados no Microsoft Purview para linhagem está listada na tabela abaixo.

Sistema de processamento de dados Âmbito suportado
Fluxo de ar Linhagem do Airflow
Azure Data Share Partilhar snapshot
Azure Data Factory atividade Copy
Atividade do fluxo de dados
Executar a atividade do pacote SSIS
Base de Dados do SQL do Azure (Pré-visualização) Extração de linhagem para execuções de procedimentos armazenados
Azure Synapse Analytics atividade Copy
Atividade do fluxo de dados

Sistemas de armazenamento de dados

As bases de dados & soluções de armazenamento como Oracle, Teradata e SAP têm motores de consulta para transformar dados com linguagem de scripting. As informações de linhagem de dados de vistas/procedimentos armazenados/etc. são recolhidas no Microsoft Purview e cosidas com linhagem de outros sistemas. A linhagem é suportada para as seguintes origens de dados através da análise de dados do Microsoft Purview. Saiba mais sobre os cenários de linhagem suportados no respetivo artigo.

Categoria Fonte de dados
Azure Azure Databricks
Banco de dados Cassandra
DB2
BigQuery do Google
Banco de Dados do Metastore do Hive
MySQL
Oracle
PostgreSQL
Snowflake
Teradata
Serviços e aplicações Erwin
Looker
SAP ECC
SAP S/4HANA

Análise de dados e sistemas de relatórios

Análise de dados e sistemas de relatórios, como o Azure Machine Learning e a linhagem de relatórios do Power BI no Microsoft Purview. Estes sistemas utilizarão os conjuntos de dados dos sistemas de armazenamento e processarão através do respetivo meta modelo para criar Dashboards de BI, experimentações de ML, etc.

Análise de dados & sistema de relatórios Âmbito suportado
Power BI Conjuntos de dados, Fluxos de Dados, Relatórios & Dashboards

Introdução à linhagem

A linhagem no Microsoft Purview inclui conjuntos de dados e processos. Os conjuntos de dados também são referidos como nós, enquanto os processos também podem ser denominados arestas:

  • Conjunto de dados (Nó): um conjunto de dados (estruturado ou não estruturado) fornecido como uma entrada para um processo. Por exemplo, uma Tabela SQL, um blob do Azure e ficheiros (como .csv e .xml) são todos considerados conjuntos de dados. Na secção linhagem do Microsoft Purview, os conjuntos de dados são representados por caixas retangulares.

  • Processo (Edge): uma atividade ou transformação realizada num conjunto de dados é denominada processo. Por exemplo, atividade Copy do ADF, Data Share snapshot e assim sucessivamente. Na secção de linhagem do Microsoft Purview, os processos são representados por caixas de margens redondas.

Para aceder às informações de linhagem de um recurso no Microsoft Purview, siga os passos:

  1. Abra o portal de governação do Microsoft Purview ao:

  2. Na Home page do portal de governação do Microsoft Purview, procure um nome de conjunto de dados ou o nome do processo, como Cópia do ADF ou atividade Fluxo de Dados. Em seguida, prima Enter.

  3. Nos resultados da pesquisa, selecione o elemento e selecione o respetivo separador Linhagem .

    Captura de ecrã a mostrar como selecionar o separador Linhagem.

Linhagem ao nível do recurso

O Microsoft Purview suporta a linhagem ao nível dos recursos para os conjuntos de dados e processos. Para ver a linhagem ao nível do recurso, aceda ao separador Linhagem do recurso atual no catálogo. Selecione o nó do recurso do conjunto de dados atual. Por predefinição, a lista de colunas pertencentes aos dados é apresentada no painel esquerdo.

Captura de ecrã a mostrar como selecionar Ver colunas na página de linhagem.

Linhagem manual

A linhagem de dados no Microsoft Purview é automatizada para muitos recursos em ambientes no local, multicloud e SaaS. Enquanto continuamos a adicionar mais origens automatizadas, a linhagem manual permite-lhe documentar metadados de linhagem para origens onde a automatização ainda não é suportada, sem utilizar código.

Para adicionar linhagem manual para qualquer um dos seus recursos, siga estes passos:

  1. Procure o seu recurso no catálogo de dados e selecione-o para ver os detalhes.

  2. Selecione Editar, navegue para o separador Linhagem e selecione Adicionar linhagem manual no painel inferior.

    Captura de ecrã a mostrar a edição de um recurso e a adição de linhagem manual.

  3. Para configurar a linhagem de recursos:

    1. Selecione a lista pendente de recursos para localizar o recurso na lista sugerida ou Ver mais para procurar no catálogo completo. Selecione o elemento que pretende ligar.
    2. Selecione o ícone de troca para configurar a direção da relação como Produtos (para linhagem a jusante) ou Consumes (para upstream linhagem).
    3. Se quiser eliminar uma linhagem, selecione o ícone do caixote do lixo.

    Captura de ecrã a mostrar uma página de linhagem de recursos de dados, com a lista pendente de recursos realçada.

  4. Quando adiciona linhagem entre dois recursos de dados, pode configurar adicionalmente a linhagem ao nível da coluna. Selecione o ícone expandir no início da linha, selecione as colunas upstream e a jusante nas listas pendentes correspondentes para configurar o mapeamento de colunas. Selecione o ícone de adição para adicionar mais linhagem de colunas; selecione o ícone de caixote do lixo para eliminar os existentes.

    Captura de ecrã a mostrar a configuração da linhagem ao nível da coluna.

  5. Pode adicionar mais linhagem ao nível do recurso ao selecionar novamente o botão Adicionar linhagem manual . Quando terminar, selecione o botão Guardar para guardar a linhagem e sair do modo de edição.

Limitações conhecidas da linhagem manual

  • A experiência atual do seletor de recursos permite selecionar apenas um recurso de cada vez.
  • A linhagem manual ao nível da coluna é atualmente suportada para linhagem entre dois recursos de dados, embora não seja suportada quando o recurso de processo está envolvido no meio.
  • Acesso à curadoria de dados necessário para recursos de origem e de destino.
  • Atualmente, estes tipos de recursos não permitem a linhagem manual porque suportam a linhagem automatizada:
    • Azure Data Factory
    • Pipelines do Synapse
    • Conjuntos de dados do Power BI
    • Procedimento armazenado do Teradata
    • SQL do Azure procedimento armazenado

Linhagem de colunas de conjuntos de dados

Para ver a linhagem ao nível da coluna de um conjunto de dados, aceda ao separador Linhagem do recurso atual no catálogo e siga os passos abaixo:

  1. Assim que estiver no separador linhagem, no painel esquerdo, selecione a caixa de marcar junto a cada coluna que pretende apresentar na linhagem de dados.

    Captura de ecrã a mostrar como selecionar colunas a apresentar na página de linhagem.

  2. Paire o cursor sobre uma coluna selecionada no painel esquerdo ou no conjunto de dados da tela de linhagem para ver o mapeamento de colunas. Todas as instâncias de coluna estão realçadas.

    Captura de ecrã a mostrar como pairar o cursor sobre o nome de uma coluna para realçar o fluxo de colunas num caminho de linhagem de dados.

  3. Se o número de colunas for maior do que o que pode ser apresentado no painel esquerdo, utilize a opção de filtro para selecionar uma coluna específica por nome. Em alternativa, pode utilizar o rato para percorrer a lista.

    Captura de ecrã a mostrar como filtrar colunas por nome de coluna na página de linhagem.

  4. Se a tela de linhagem contiver mais nós e arestas, utilize o filtro para selecionar recursos de dados ou processar nós por nome. Em alternativa, pode utilizar o rato para percorrer a janela de linhagem.

    Captura de ecrã a mostrar nós de recursos de dados por nome na página de linhagem.

  5. Utilize o botão de alternar no painel esquerdo para realçar a lista de conjuntos de dados na tela de linhagem. Se desativar o botão de alternar, é apresentado qualquer elemento que contenha, pelo menos, uma das colunas selecionadas. Se ativar o botão de alternar, apenas são apresentados os conjuntos de dados que contêm todas as colunas.

    Captura de ecrã a mostrar como utilizar o botão de alternar para filtrar a lista de nós na página de linhagem.

Linhagem de colunas de processo

Também pode ver processos de dados, como atividades de cópia, no catálogo de dados. Por exemplo, neste fluxo de linhagem, selecione a atividade de cópia:

Captura de ecrã a mostrar um fluxo de linhagem de dados com um dos nós de atividade de cópia realçado.

A atividade de cópia será expandida e, em seguida, pode selecionar o botão Mudar para recurso, que lhe dará mais detalhes sobre o próprio processo.

Captura de ecrã a mostrar o nó de atividade de cópia expandido e o novo botão mudar para recurso selecionado.

O processo de dados pode utilizar um ou mais conjuntos de dados de entrada para produzir uma ou mais saídas. No Microsoft Purview, a linhagem ao nível da coluna está disponível para nós de processo.

  1. Alternar entre conjuntos de dados de entrada e saída de um menu pendente no painel de colunas.

  2. Selecione colunas de uma ou mais tabelas para ver a linhagem a fluir do conjunto de dados de entrada para o conjunto de dados de saída correspondente.

    Captura de ecrã a mostrar a linhagem de colunas de um nó de processo.

Procurar recursos na linhagem

  1. Selecione Mudar para recurso em qualquer recurso para ver os metadados correspondentes na vista de linhagem. Fazê-lo é uma forma eficaz de navegar para outro recurso no catálogo a partir da vista de linhagem.

    Captura de ecrã a mostrar como selecionar Mudar para recurso num recurso de dados de linhagem.

  2. A tela de linhagem pode tornar-se complexa para conjuntos de dados populares. Para evitar a desorganização, a vista predefinida mostrará apenas cinco níveis de linhagem para o recurso em foco. O resto da linhagem pode ser expandido ao selecionar as bolhas na tela de linhagem. Os consumidores de dados também podem ocultar os recursos na tela que não são de interesse. Para reduzir ainda mais a desorganização, desative o botão de alternar Mais Linhagem na parte superior da tela de linhagem. Esta ação irá ocultar todas as bolhas na tela de linhagem.

    Captura de ecrã a mostrar como ativar/desativar Mais linhagem.

  3. Utilize os botões inteligentes na tela de linhagem para obter uma vista ideal da linhagem:

    1. Ecrã inteiro
    2. Aplicar zoom para ajustar
    3. Ampliar/reduzir
    4. Alinhar automaticamente
    5. Pré-visualização do zoom
    6. E mais opções:
      1. Centrar o recurso atual
      2. Repor para a vista predefinida

    Captura de ecrã a mostrar como selecionar os botões inteligentes de linhagem.

Criar linhagem personalizada manualmente ou com APIs REST

Uma das funcionalidades importantes da plataforma do Microsoft Purview é a capacidade de mostrar a linhagem entre conjuntos de dados criados por processos de dados. Sistemas como o Data Factory, o Data Share e o Power BI capturam a linhagem de dados à medida que se movem. Em determinadas situações, a linhagem gerada automaticamente pelo Purview está incompleta ou em falta para efeitos práticos de visualização e/ou relatórios empresariais. Nesses cenários, pode criar entradas de linhagem personalizadas manualmente no portal do Microsoft Purview ou através de hooks do Apache Atlas e da API REST. Outra das principais vantagens da utilização de APIs REST para comunicar ou criar linhagem personalizada é superar ou mitigar as limitações da funcionalidade exposta pela Linhagem Manual.

Para criar linhagem personalizada manualmente, pode seguir este guia de utilizador: Entradas de linhagem manuais no Microsoft Purview.

Para criar linhagem personalizada no Microsoft Purview com as APIs REST, siga este guia de utilizador: Microsoft Purview – Criar Linhagem Personalizada com APIs REST.

Dica

Em alguns casos, as APIs REST podem fornecer mais opções de entrada e personalização do que criar as entradas de linhagem manualmente através do portal.

Boas práticas de linhagem

Próximas etapas