Práticas recomendadas da Linhagem de Dados do Microsoft Purview

A linhagem de dados é amplamente compreendida como o ciclo de vida que abrange a origem dos dados e para onde ele se move ao longo do tempo no conjunto de dados. O Microsoft Purview pode capturar a linhagem de dados em diferentes partes do patrimônio de dados da sua organização e em diferentes níveis de preparação, incluindo:

  • Dados brutos encenados de várias plataformas
  • Dados transformados e preparados
  • Dados usados por plataformas de visualização

Por que você precisa adotar a Linhagem?

A linhagem de dados é o processo de descrever quais dados existem, onde são armazenados e como eles fluem entre sistemas. Há muitas razões pelas quais a linhagem de dados é importante, mas em um alto nível, todas elas podem ser resumidas a três categorias que exploraremos aqui:

  • Acompanhar dados em relatórios
  • Análise de impacto
  • Capturar as alterações e onde os dados residiram durante o ciclo de vida dos dados

Azure Data Factory melhores práticas e considerações de linhagem

Azure Data Factory instância

  • A linhagem de dados não será relatada ao catálogo automaticamente até que a conexão do Data Factory status se transforme em Conectado. O restante do status Desconectado e Não PodeAccess não pode capturar linhagem.

    Captura de tela mostrando uma lista de conexões do data factory.

  • Cada instância do Data Factory pode se conectar a apenas uma conta do Microsoft Purview. Você pode estabelecer uma nova conexão em outra conta do Microsoft Purview, mas isso transformará a conexão existente em desconectada.

    Captura de tela mostrando o aviso para desconectar Azure Data Factory.

  • A identidade gerenciada do data factory é usada para autenticar operações de push de linhagem na conta do Microsoft Purview. A identidade gerenciada do data factory precisa de função de Curador de Dados na coleção raiz do Microsoft Purview.

  • Atualmente, apenas 10 data factorys podem ser conectados por vez. Se você quiser adicionar mais de 10 data factorys, adicione 10 novas conexões de data factory por vez usando o assistente ou use a API para conectar mais de 10 fábricas de dados em uma única operação.

Azure Data Factory atividades

  • O Microsoft Purview captura a linhagem de runtime das seguintes atividades de Azure Data Factory:

  • O Microsoft Purview descarta a linhagem se a origem ou o destino usar um sistema de armazenamento de dados sem suporte.

  • O Microsoft Purview não poderá capturar a linhagem se Azure Data Factory atividade de cópia usar recursos de atividade de cópia listados em Limitações na linhagem de atividade de cópia do Connect to Azure Data Factory

  • Para a linhagem da atividade de fluxo de dados, o Microsoft Purview só dá suporte à origem e ao coletor. A linhagem para transformação de fluxo de dados ainda não tem suporte.

  • A linhagem de fluxo de dados não se integra ao conjunto de recursos do Microsoft Purview. Exemplo do conjunto de recursos:
    Nome qualificado: https://myblob.blob.core.windows.net/sample-data/data{N}.csv nome de exibição: "dados"

  • Para a linhagem da atividade Executar Pacote SSIS, só oferecemos suporte à origem e ao destino. A linhagem para transformação ainda não tem suporte.

    Captura de tela da linhagem Executar SSIS no Microsoft Purview.

  • Consulte o guia passo a passo a seguir para enviar push Azure Data Factory linhagem no Microsoft Purview.

Próximas etapas