Comment obtenir la traçabilité de Azure Synapse Analytics dans Microsoft Purview

Ce document décrit les étapes nécessaires pour connecter un espace de travail Azure Synapse avec un compte Microsoft Purview afin de suivre la traçabilité des données et d’ingérer des sources de données. Le document présente également les détails de l’étendue de couverture de l’activité et des fonctionnalités de traçabilité prises en charge.

Lorsque vous connectez Azure Synapse Analytics à Microsoft Purview, chaque fois qu’une activité de pipeline prise en charge est exécutée, les métadonnées relatives aux données sources de l’activité, aux données de sortie et à l’activité sont automatiquement ingérées dans le Mappage de données Microsoft Purview.

Si une source de données a déjà été analysée et existe dans le mappage de données, le processus d’ingestion ajoute les informations de traçabilité de Azure Synapse Analytics à cette source existante. Si la source ou la sortie n’existe pas dans le mappage de données et est prise en charge par la traçabilité Azure Synapse Analytics, Microsoft Purview ajoute automatiquement ses métadonnées de Synapse Analytics dans le mappage de données sous la collection racine.

Cela peut être un excellent moyen de surveiller votre patrimoine de données à mesure que les utilisateurs déplacent et transforment des informations à l’aide de Azure Synapse Analytics.

Fonctionnalités de Azure Synapse prises en charge

Actuellement, Microsoft Purview capture la traçabilité du runtime à partir des activités de pipeline Azure Synapse suivantes :

Importante

Microsoft Purview supprime la traçabilité si la source ou la destination utilise un système de stockage de données non pris en charge.

activité Copy prise en charge

Magasin de données Pris en charge
Stockage Blob Azure Oui
Recherche cognitive Azure Oui
Azure Cosmos DB for NoSQL * Oui
Azure Cosmos DB for MongoDB * Oui
Azure Data Explorer * Oui
Azure Data Lake Storage Gen1 Oui
Azure Data Lake Storage Gen2 Oui
Azure Database for MariaDB * Oui
Azure Database pour MySQL * Oui
Azure Database pour PostgreSQL * Oui
Azure Files Oui
base de données Azure SQL * Oui
Azure SQL Managed Instance * Oui
Azure Synapse Analytics * Oui
Pool SQL dédié Azure (anciennement SQL DW) * Oui
Stockage Table Azure Oui
Amazon S3 Oui
Ruche* Oui
Oracle* Oui
Table SAP (lors de la connexion à SAP ECC ou SAP S/4HANA) Oui
SQL Server * Oui
Teradata* Oui

* Actuellement, Microsoft Purview ne prend pas en charge la requête ou la procédure stockée pour la traçabilité ou l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.

Si vous utilisez des Integration Runtime auto-hébergés, notez la version minimale avec prise en charge de la traçabilité pour :

  • Tout cas d’usage : version 5.9.7885.3 ou ultérieure
  • Copie de données à partir d’Oracle : version 5.10 ou ultérieure
  • Copie de données dans Azure Synapse Analytics via la commande COPY ou PolyBase : version 5.10 ou ultérieure

Limitations relatives à la traçabilité de l’activité de copie

Actuellement, si vous utilisez les fonctionnalités d’activité de copie suivantes, la traçabilité n’est pas encore prise en charge :

  • Copiez des données dans Azure Data Lake Storage Gen1 à l’aide du format binaire.
  • Paramètre de compression pour les fichiers Binaire, texte délimité, Excel, JSON et XML.
  • Options de partition source pour Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server et SAP Table.
  • Copiez des données dans un récepteur basé sur un fichier avec la définition du nombre maximal de lignes par fichier.
  • La traçabilité au niveau de la colonne n’est actuellement pas prise en charge par l’activité de copie lorsque la source/récepteur est un jeu de ressources.

En plus de la traçabilité, le schéma de ressource de données (affiché dans l’onglet Ressource -> Schéma) est signalé pour les connecteurs suivants :

  • Fichiers CSV et Parquet sur Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 et Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

Data Flow prise en charge

Magasin de données Pris en charge
Stockage Blob Azure Oui
Azure Cosmos DB for NoSQL * Oui
Azure Data Lake Storage Gen1 Oui
Azure Data Lake Storage Gen2 Oui
Azure Database pour MySQL * Oui
Azure Database pour PostgreSQL * Oui
base de données Azure SQL * Oui
Azure SQL Managed Instance * Oui
Azure Synapse Analytics * Oui
Pool SQL dédié Azure (anciennement SQL DW) * Oui

* Actuellement, Microsoft Purview ne prend pas en charge la requête ou la procédure stockée pour la traçabilité ou l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.

Limitations de la traçabilité des flux de données

  • La traçabilité du flux de données peut générer un jeu de ressources au niveau du dossier sans visibilité sur les fichiers impliqués.
  • La traçabilité au niveau de la colonne n’est actuellement pas prise en charge lorsque la source/le récepteur est un jeu de ressources.
  • Pour la traçabilité de l’activité de flux de données, Microsoft Purview prend uniquement en charge l’affichage de la source et du récepteur impliqués. La traçabilité détaillée pour la transformation de flux de données n’est pas encore prise en charge.

Accéder au compte Microsoft Purview sécurisé

Si votre compte Microsoft Purview est protégé par un pare-feu, découvrez comment Azure Synapse accéder à un compte Microsoft Purview sécurisé via des points de terminaison privés Microsoft Purview.

Intégrer Azure Synapse traçabilité dans Microsoft Purview

Étape 1 : Connecter Azure Synapse espace de travail à votre compte Microsoft Purview

Vous pouvez connecter un espace de travail Azure Synapse à Microsoft Purview, et la connexion permet Azure Synapse d’envoyer des informations de traçabilité à Microsoft Purview. Suivez les étapes décrites dans Connecter l’espace de travail Synapse à Microsoft Purview. Plusieurs espaces de travail Azure Synapse peuvent se connecter à un seul compte Microsoft Purview pour un suivi de traçabilité holistique.

Étape 2 : Exécuter le pipeline dans Azure Synapse espace de travail

Vous pouvez créer des pipelines avec activité Copy dans Azure Synapse espace de travail. Vous n’avez pas besoin d’une autre configuration pour la capture des données de traçabilité. Les données de traçabilité sont automatiquement capturées pendant l’exécution des activités.

Étape 3 : Surveiller les status de rapports de traçabilité

Après avoir exécuté le pipeline Azure Synapse, dans la vue de supervision du pipeline Synapse, vous pouvez case activée le status de rapports de traçabilité en sélectionnant le bouton status de traçabilité suivant. Les mêmes informations sont également disponibles dans la section JSON de sortie de>reportLineageToPurvew l’activité.

Surveillez les status de rapports de traçabilité dans la vue de surveillance du pipeline.

Étape 4 : Afficher les informations de traçabilité dans votre compte Microsoft Purview

Dans votre compte Microsoft Purview, vous pouvez parcourir les ressources et choisir de taper « Azure Synapse Analytics ». Vous pouvez également effectuer une recherche dans le Data Catalog à l’aide de mots clés.

Parcourez les ressources Azure Synapse dans Microsoft Purview.

Sélectionnez l’activité compte Synapse -> pipeline -> pour afficher les informations de traçabilité.

Parcourez la traçabilité du pipeline Azure Synapse dans Microsoft Purview.

Dans le portail de gouvernance Microsoft Purview, vous pouvez surveiller les liens Azure Synapse Analytics.

Prochaines étapes

Guide de l’utilisateur de traçabilité du catalogue

Lien vers Azure Data Share pour la traçabilité