Como obter linhagem do Azure Synapse Analytics no Microsoft Purview

Este documento explica as etapas necessárias para conectar um workspace Azure Synapse com uma conta do Microsoft Purview para acompanhar a linhagem de dados e ingerir fontes de dados. O documento também entra nos detalhes do escopo de cobertura da atividade e dos recursos de linhagem com suporte.

Quando você se conecta Azure Synapse Analytics ao Microsoft Purview, sempre que uma atividade de pipeline com suporte for executada, metadados sobre os dados de origem, os dados de saída e a atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.

Se uma fonte de dados já tiver sido digitalizada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem do Azure Synapse Analytics à fonte existente. Se a origem ou a saída não existir no mapa de dados e tiver suporte na linhagem Azure Synapse Analytics, o Microsoft Purview adicionará automaticamente seus metadados do Synapse Analytics ao mapa de dados na coleção raiz.

Essa pode ser uma excelente maneira de monitorar seu patrimônio de dados à medida que os usuários movem e transformam informações usando Azure Synapse Analytics.

Recursos de Azure Synapse com suporte

Atualmente, o Microsoft Purview captura a linhagem de runtime das seguintes atividades de pipeline Azure Synapse:

Importante

O Microsoft Purview descarta a linhagem se a origem ou o destino usar um sistema de armazenamento de dados sem suporte.

suporte atividade Copy

Armazenamento de dados Com suporte
Azure Storage Blob Sim
Azure Cognitive Search Sim
Azure Cosmos DB for NoSQL * Sim
Azure Cosmos DB para MongoDB * Sim
Azure Data Explorer * Sim
Azure Data Lake Storage Gen1 Sim
Azure Data Lake Storage Gen2 Sim
Banco de Dados do Azure para MariaDB * Sim
Banco de Dados do Azure para MySQL * Sim
Banco de Dados do Azure para PostgreSQL * Sim
Arquivos do Azure Sim
Banco de Dados SQL do Azure * Sim
Instância Gerenciada de SQL do Azure * Sim
Azure Synapse Analytics * Sim
Pool de SQL dedicado do Azure (anteriormente SQL DW) * Sim
Armazenamento de Tabelas do Azure Sim
Amazon S3 Sim
Colméia* Sim
Oracle* Sim
Tabela SAP (ao se conectar ao SAP ECC ou SAP S/4HANA) Sim
SQL Server * Sim
Teradata* Sim

* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.

Se você usar o Integration Runtime auto-hospedado, observe a versão mínima com suporte de linhagem para:

  • Qualquer caso de uso: versão 5.9.7885.3 ou posterior
  • Copiar dados do Oracle: versão 5.10 ou posterior
  • Copiar dados no Azure Synapse Analytics por meio do comando COPY ou PolyBase: versão 5.10 ou posterior

Limitações na linhagem de atividade de cópia

Atualmente, se você usar os seguintes recursos de atividade de cópia, a linhagem ainda não terá suporte:

  • Copie dados em Azure Data Lake Storage Gen1 usando o formato Binário.
  • Configuração de compactação para arquivos Binary, texto delimitado, Excel, JSON e XML.
  • Opções de partição de origem para Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server e tabela SAP.
  • Copie dados para o coletor baseado em arquivo com a configuração de linhas máximas por arquivo.
  • No momento, não há suporte para linhagem de nível de coluna pela atividade de cópia quando a origem/coletor é definida.

Além da linhagem, o esquema de ativo de dados (mostrado na guia Ativo –> Esquema) é relatado para os seguintes conectores:

  • Arquivos CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
  • Banco de Dados do Azure Data Explorer, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server, Teradata

suporte Fluxo de Dados

Armazenamento de dados Com suporte
Azure Storage Blob Sim
Azure Cosmos DB for NoSQL * Sim
Azure Data Lake Storage Gen1 Sim
Azure Data Lake Storage Gen2 Sim
Banco de Dados do Azure para MySQL * Sim
Banco de Dados do Azure para PostgreSQL * Sim
Banco de Dados SQL do Azure * Sim
Instância Gerenciada de SQL do Azure * Sim
Azure Synapse Analytics * Sim
Pool de SQL dedicado do Azure (anteriormente SQL DW) * Sim

* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.

Limitações na linhagem de fluxo de dados

  • A linhagem de fluxo de dados pode gerar um conjunto de recursos no nível da pasta sem visibilidade nos arquivos envolvidos.
  • No momento, não há suporte para linhagem de nível de coluna quando a origem/coletor é definida.
  • Para a linhagem da atividade de fluxo de dados, o Microsoft Purview só dá suporte a mostrar a origem e o coletor envolvidos. A linhagem detalhada para transformação de fluxo de dados ainda não tem suporte.

Conta do Microsoft Purview protegida de acesso

Se sua conta do Microsoft Purview estiver protegida por firewall, saiba como permitir que Azure Synapse acesse uma conta segura do Microsoft Purview por meio de pontos de extremidade privados do Microsoft Purview.

Trazer Azure Synapse linhagem para o Microsoft Purview

Etapa 1: conectar Azure Synapse workspace à sua conta do Microsoft Purview

Você pode conectar um workspace Azure Synapse ao Microsoft Purview e a conexão permite que Azure Synapse envie informações de linhagem por push para o Microsoft Purview. Siga as etapas no workspace Connect Synapse ao Microsoft Purview. Vários workspaces Azure Synapse podem se conectar a uma única conta do Microsoft Purview para acompanhamento de linhagem holística.

Etapa 2: executar pipeline no workspace Azure Synapse

Você pode criar pipelines com atividade Copy no workspace Azure Synapse. Você não precisa de nenhuma outra configuração para captura de dados de linhagem. Os dados de linhagem serão capturados automaticamente durante a execução das atividades.

Etapa 3: Monitorar status de relatórios de linhagem

Depois de executar o pipeline Azure Synapse, no modo de exibição de monitoramento de pipeline do Synapse, você pode marcar o relatório de linhagem status selecionando o botão lineage status a seguir. As mesmas informações também estão disponíveis na seção JSON –>reportLineageToPurvew saída de atividade.

Monitore o relatório de linhagem status no modo de exibição de monitoramento de pipeline.

Etapa 4: exibir informações de linhagem em sua conta do Microsoft Purview

Em sua conta do Microsoft Purview, você pode procurar ativos e escolher o tipo "Azure Synapse Analytics". Você também pode pesquisar o Catálogo de Dados usando palavras-chave.

Navegue pelos ativos Azure Synapse no Microsoft Purview.

Selecione a conta Synapse –> pipeline –> atividade, você pode exibir as informações de linhagem.

Navegue pela linhagem de pipeline Azure Synapse no Microsoft Purview.

No portal de governança do Microsoft Purview, você pode monitorar os links do Azure Synapse Analytics.

Próximas etapas

Guia do usuário de linhagem de catálogo

Vincular ao Azure Data Share para linhagem