Catálogo de Dados do Microsoft Purview guia de usuário de linhagem
Este artigo fornece uma visão geral dos recursos de linhagem de dados em Catálogo de Dados do Microsoft Purview.
Histórico
Um dos recursos de plataforma do Microsoft Purview é a capacidade de mostrar a linhagem entre conjuntos de dados criados por processos de dados. Sistemas como Data Factory, Data Share e Power BI capturam a linhagem de dados à medida que ele se move. Também há suporte para relatórios de linhagem personalizados por meio de ganchos atlas e API REST.
Coleção de linhagem
Metadados coletados no Microsoft Purview de sistemas de dados corporativos são costurados para mostrar uma linhagem de dados de ponta a ponta. Os sistemas de dados que coletam linhagem no Microsoft Purview são amplamente categorizados nos seguintes três tipos:
- Sistemas de processamento de dados
- Sistemas de armazenamento de dados
- Análise de dados e sistemas de relatórios
Cada sistema dá suporte a um nível diferente de escopo de linhagem. Verifique as seções abaixo ou o artigo de linhagem individual do sistema para confirmar o escopo da linhagem atualmente disponível.
Limitações conhecidas
- As exibições de banco de dados usadas como fonte de atividade de processo(Azure Data Factory, Pipelines do Synapse, banco de dados SQL do Azure, Data Share do Azure) são capturadas atualmente como objetos da Tabela de Banco de Dados no Microsoft Purview. Se o Banco de Dados também for verificado, os ativos View serão descobertos separadamente no Microsoft Purview. Nesse cenário, dois ativos com o mesmo nome capturados no Microsoft Purview, um como uma Tabela com linhagem de dados e outro como exibição.
- Se um procedimento armazenado contiver instruções suspensas ou de criação, elas não serão capturadas atualmente na linhagem.
Sistemas de processamento de dados
A integração de dados e as ferramentas ETL podem enviar linhagem por push para o Microsoft Purview no momento da execução. Ferramentas como Data Factory, Data Share, Synapse, Azure Databricks e assim por diante pertencem a essa categoria de sistemas de processamento de dados. Os sistemas de processamento de dados fazem referência a conjuntos de dados como fonte de diferentes bancos de dados e soluções de armazenamento para criar conjuntos de dados de destino. A lista de sistemas de processamento de dados atualmente integrados ao Microsoft Purview para linhagem está listada na tabela abaixo.
Sistema de processamento de dados | Escopo com suporte |
---|---|
Fluxo | Linhagem de fluxo de ar |
Data Share do Azure | Compartilhar instantâneo |
Azure Data Factory |
atividade Copy Atividade de fluxo de dados Executar atividade de pacote SSIS |
banco de dados SQL do Azure (versão prévia) | Extração de linhagem para execuções de procedimentos armazenados |
Azure Synapse Analytics |
atividade Copy Atividade de fluxo de dados |
Sistemas de armazenamento de dados
Soluções de armazenamento de bancos & de dados, como Oracle, Teradata e SAP, têm mecanismos de consulta para transformar dados usando a linguagem de script. As informações de linhagem de dados de modos de exibição/procedimentos armazenados/etc são coletadas no Microsoft Purview e costuradas com linhagem de outros sistemas. Há suporte para a linhagem para as seguintes fontes de dados por meio da verificação de dados do Microsoft Purview. Saiba mais sobre os cenários de linhagem com suporte do respectivo artigo.
Categoria | Fonte de dados |
---|---|
Azure | Azure Databricks |
Banco de dados | Cassandra |
Db2 | |
Google BigQuery | |
Banco de Dados Metastore do Hive | |
Mysql | |
Oracle | |
Postgresql | |
Snowflake | |
Teradata | |
Serviços e aplicativos | Erwin |
Bonita | |
SAP ECC | |
SAP S/4HANA |
Análise de dados e sistemas de relatórios
Sistemas de análise de dados e relatórios, como o Azure Machine Learning e a linhagem de relatórios do Power BI no Microsoft Purview. Esses sistemas usarão os conjuntos de dados de sistemas de armazenamento e processarão por meio de seu modelo meta para criar painéis de BI, experimentos de ML e assim por diante.
Sistema de relatórios de análise de & dados | Escopo com suporte |
---|---|
Power BI | Conjuntos de dados, fluxos de dados, painéis de relatórios & |
Introdução à linhagem
A linhagem no Microsoft Purview inclui conjuntos de dados e processos. Os conjuntos de dados também são chamados de nós, enquanto os processos também podem ser chamados de bordas:
Conjunto de dados (Nó): um conjunto de dados (estruturado ou não estruturado) fornecido como uma entrada para um processo. Por exemplo, uma Tabela SQL, blob do Azure e arquivos (como .csv e .xml), são considerados conjuntos de dados. Na seção de linhagem do Microsoft Purview, os conjuntos de dados são representados por caixas retangulares.
Processo (Edge): uma atividade ou transformação executada em um conjunto de dados é chamada de processo. Por exemplo, ADF atividade Copy, Data Share instantâneo e assim por diante. Na seção de linhagem do Microsoft Purview, os processos são representados por caixas de borda redonda.
Para acessar informações de linhagem de um ativo no Microsoft Purview, siga as etapas:
Abra o portal de governança do Microsoft Purview por:
- Navegando diretamente para https://web.purview.azure.com e selecionando sua conta do Microsoft Purview.
- Abrindo o portal do Azure, pesquisando e selecionando a conta do Microsoft Purview. Selecionando o botão portal de governança do Microsoft Purview .
Na página inicial do portal de governança do Microsoft Purview, pesquise um nome de conjunto de dados ou o nome do processo, como Cópia do ADF ou atividade Fluxo de Dados. E pressione Enter.
Nos resultados da pesquisa, selecione o ativo e selecione sua guia Linhagem .
Linhagem no nível do ativo
O Microsoft Purview dá suporte à linhagem de nível de ativo para os conjuntos de dados e processos. Para ver a linhagem do nível do ativo, acesse a guia Linhagem do ativo atual no catálogo. Selecione o nó de ativo do conjunto de dados atual. Por padrão, a lista de colunas pertencentes aos dados aparece no painel esquerdo.
Linhagem manual
A linhagem de dados no Microsoft Purview é automatizada para muitos ativos em ambientes locais, multicloud e SaaS. Embora continuemos a adicionar mais fontes automatizadas, a linhagem manual permite documentar metadados de linhagem para fontes em que a automação ainda não tem suporte, sem usar nenhum código.
Para adicionar linhagem manual para qualquer um de seus ativos, siga estas etapas:
Pesquise seu ativo no catálogo de dados e selecione-o para exibir detalhes.
Selecione Editar, navegue até a guia Linhagem e selecione Adicionar linhagem manual no painel inferior.
Para configurar a linhagem de ativos:
- Selecione a lista suspensa de ativos para encontrar o ativo na lista sugerida ou Exibir mais para pesquisar o catálogo completo. Selecione o ativo que você gostaria de vincular.
- Selecione o ícone de troca para configurar a direção de relação como Produz (para linhagem downstream) ou Consuma (para upstream linhagem).
- Se você quiser excluir uma linhagem, selecione o ícone de lata de lixo.
Ao adicionar linhagem entre dois ativos de dados, você também pode configurar a linhagem do nível da coluna. Selecione o ícone de expansão no início da linha, selecione as colunas upstream e downstream nas listas suspensas correspondentes para configurar o mapeamento de colunas. Selecione o ícone de adição para adicionar mais linhagem de coluna; selecione o ícone lixeira para excluir os existentes.
Você pode adicionar mais linhagem de nível de ativo selecionando o botão Adicionar linhagem manual novamente. Quando terminar, selecione o botão Salvar para salvar sua linhagem e sair do modo de edição.
Limitações conhecidas da linhagem manual
- A experiência atual do seletor de ativos permite selecionar apenas um ativo por vez.
- Atualmente, há suporte para linhagem manual de nível de coluna para linhagem entre dois ativos de dados, embora não haja suporte quando o ativo de processo está envolvido no meio.
- Acesso à curadoria de dados necessário para ativos de origem e de destino.
- Atualmente, esses tipos de ativos não permitem linhagem manual porque dão suporte à linhagem automatizada:
- Azure Data Factory
- Pipelines do Synapse
- Conjuntos de dados do Power BI
- Procedimento armazenado do Teradata
- SQL do Azure procedimento armazenado
Linhagem de coluna do conjunto de dados
Para ver a linhagem no nível da coluna de um conjunto de dados, acesse a guia Linhagem do ativo atual no catálogo e siga as etapas a seguir:
Depois de estar na guia linhagem, no painel esquerdo, selecione a caixa marcar ao lado de cada coluna que você deseja exibir na linhagem de dados.
Passe o mouse sobre uma coluna selecionada no painel esquerdo ou no conjunto de dados da tela de linhagem para ver o mapeamento da coluna. Todas as instâncias de coluna são realçadas.
Se o número de colunas for maior do que o que pode ser exibido no painel esquerdo, use a opção de filtro para selecionar uma coluna específica pelo nome. Como alternativa, você pode usar o mouse para percorrer a lista.
Se a tela de linhagem contiver mais nós e bordas, use o filtro para selecionar ativo de dados ou processar nós pelo nome. Como alternativa, você pode usar o mouse para contornar a janela de linhagem.
Use o alternância no painel esquerdo para realçar a lista de conjuntos de dados na tela de linhagem. Se você desativar o alternância, qualquer ativo que contenha pelo menos uma das colunas selecionadas será exibido. Se você ativar o alternância, somente conjuntos de dados que contêm todas as colunas serão exibidos.
Processar linhagem de coluna
Você também pode exibir processos de dados, como atividades de cópia, no catálogo de dados. Por exemplo, neste fluxo de linhagem, selecione a atividade de cópia:
A atividade de cópia será expandida e você poderá selecionar o botão Alternar para ativo , o que lhe dará mais detalhes sobre o processo em si.
O processo de dados pode levar um ou mais conjuntos de dados de entrada para produzir uma ou mais saídas. No Microsoft Purview, a linhagem de nível de coluna está disponível para nós de processo.
Alternar entre conjuntos de dados de entrada e saída de uma lista suspensa no painel de colunas.
Selecione colunas de uma ou mais tabelas para ver a linhagem que flui do conjunto de dados de entrada para o conjunto de dados de saída correspondente.
Procurar ativos na linhagem
Selecione Alternar para ativo em qualquer ativo para exibir seus metadados correspondentes na exibição de linhagem. Fazer isso é uma maneira eficaz de navegar até outro ativo no catálogo a partir do modo de exibição de linhagem.
A tela de linhagem pode se tornar complexa para conjuntos de dados populares. Para evitar desordem, o modo de exibição padrão mostrará apenas cinco níveis de linhagem para o ativo em foco. O restante da linhagem pode ser expandida selecionando as bolhas na tela de linhagem. Os consumidores de dados também podem ocultar os ativos na tela que não são de interesse. Para reduzir ainda mais a desordem, desative o alternância Mais Linhagem na parte superior da tela de linhagem. Essa ação ocultará todas as bolhas na tela de linhagem.
Use os botões inteligentes na tela de linhagem para obter uma exibição ideal da linhagem:
- Tela inteira
- Zoom para ajustar
- Ampliar/reduzir
- Alinhamento automático
- Visualização de zoom
- E mais opções:
- Centralizar o ativo atual
- Redefinir para exibição padrão