Como obter linhagem do Azure Synapse Analytics no Microsoft Purview
Este documento explica as etapas necessárias para conectar um workspace Azure Synapse com uma conta do Microsoft Purview para acompanhar a linhagem de dados e ingerir fontes de dados. O documento também entra nos detalhes do escopo de cobertura da atividade e dos recursos de linhagem com suporte.
Quando você se conecta Azure Synapse Analytics ao Microsoft Purview, sempre que uma atividade de pipeline com suporte for executada, metadados sobre os dados de origem, os dados de saída e a atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.
Se uma fonte de dados já tiver sido digitalizada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem do Azure Synapse Analytics à fonte existente. Se a origem ou a saída não existir no mapa de dados e tiver suporte na linhagem Azure Synapse Analytics, o Microsoft Purview adicionará automaticamente seus metadados do Synapse Analytics ao mapa de dados na coleção raiz.
Essa pode ser uma excelente maneira de monitorar seu patrimônio de dados à medida que os usuários movem e transformam informações usando Azure Synapse Analytics.
Recursos de Azure Synapse com suporte
Atualmente, o Microsoft Purview captura a linhagem de runtime das seguintes atividades de pipeline Azure Synapse:
Importante
O Microsoft Purview descarta a linhagem se a origem ou o destino usar um sistema de armazenamento de dados sem suporte.
suporte atividade Copy
Armazenamento de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cognitive Search | Sim |
Azure Cosmos DB for NoSQL * | Sim |
Azure Cosmos DB para MongoDB * | Sim |
Azure Data Explorer * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MariaDB * | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Arquivos do Azure | Sim |
Banco de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Pool de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
Armazenamento de Tabelas do Azure | Sim |
Amazon S3 | Sim |
Colméia* | Sim |
Oracle* | Sim |
Tabela SAP (ao se conectar ao SAP ECC ou SAP S/4HANA) | Sim |
SQL Server * | Sim |
Teradata* | Sim |
* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.
Se você usar o Integration Runtime auto-hospedado, observe a versão mínima com suporte de linhagem para:
- Qualquer caso de uso: versão 5.9.7885.3 ou posterior
- Copiar dados do Oracle: versão 5.10 ou posterior
- Copiar dados no Azure Synapse Analytics por meio do comando COPY ou PolyBase: versão 5.10 ou posterior
Limitações na linhagem de atividade de cópia
Atualmente, se você usar os seguintes recursos de atividade de cópia, a linhagem ainda não terá suporte:
- Copie dados em Azure Data Lake Storage Gen1 usando o formato Binário.
- Configuração de compactação para arquivos Binary, texto delimitado, Excel, JSON e XML.
- Opções de partição de origem para Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server e tabela SAP.
- Copie dados para o coletor baseado em arquivo com a configuração de linhas máximas por arquivo.
- No momento, não há suporte para linhagem de nível de coluna pela atividade de cópia quando a origem/coletor é definida.
Além da linhagem, o esquema de ativo de dados (mostrado na guia Ativo –> Esquema) é relatado para os seguintes conectores:
- Arquivos CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
- Banco de Dados do Azure Data Explorer, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server, Teradata
suporte Fluxo de Dados
Armazenamento de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cosmos DB for NoSQL * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Banco de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Pool de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.
Limitações na linhagem de fluxo de dados
- A linhagem de fluxo de dados pode gerar um conjunto de recursos no nível da pasta sem visibilidade nos arquivos envolvidos.
- No momento, não há suporte para linhagem de nível de coluna quando a origem/coletor é definida.
- Para a linhagem da atividade de fluxo de dados, o Microsoft Purview só dá suporte a mostrar a origem e o coletor envolvidos. A linhagem detalhada para transformação de fluxo de dados ainda não tem suporte.
Conta do Microsoft Purview protegida de acesso
Se sua conta do Microsoft Purview estiver protegida por firewall, saiba como permitir que Azure Synapse acesse uma conta segura do Microsoft Purview por meio de pontos de extremidade privados do Microsoft Purview.
Trazer Azure Synapse linhagem para o Microsoft Purview
Etapa 1: conectar Azure Synapse workspace à sua conta do Microsoft Purview
Você pode conectar um workspace Azure Synapse ao Microsoft Purview e a conexão permite que Azure Synapse envie informações de linhagem por push para o Microsoft Purview. Siga as etapas no workspace Connect Synapse ao Microsoft Purview. Vários workspaces Azure Synapse podem se conectar a uma única conta do Microsoft Purview para acompanhamento de linhagem holística.
Etapa 2: executar pipeline no workspace Azure Synapse
Você pode criar pipelines com atividade Copy no workspace Azure Synapse. Você não precisa de nenhuma outra configuração para captura de dados de linhagem. Os dados de linhagem serão capturados automaticamente durante a execução das atividades.
Etapa 3: Monitorar status de relatórios de linhagem
Depois de executar o pipeline Azure Synapse, no modo de exibição de monitoramento de pipeline do Synapse, você pode marcar o relatório de linhagem status selecionando o botão lineage status a seguir. As mesmas informações também estão disponíveis na seção JSON –>reportLineageToPurvew
saída de atividade.
Etapa 4: exibir informações de linhagem em sua conta do Microsoft Purview
Em sua conta do Microsoft Purview, você pode procurar ativos e escolher o tipo "Azure Synapse Analytics". Você também pode pesquisar o Catálogo de Dados usando palavras-chave.
Selecione a conta Synapse –> pipeline –> atividade, você pode exibir as informações de linhagem.
Monitorar os links do Azure Synapse Analytics
No portal de governança do Microsoft Purview, você pode monitorar os links do Azure Synapse Analytics.