Comment obtenir la traçabilité des données depuis Azure Synapse Analytics dans Microsoft Purview

Ce document explique les étapes requises pour connecter un espace de travail Azure Synapse avec un compte Microsoft Purview afin de suivre la traçabilité des données et d’ingérer des sources de données. Le document aborde également les détails de l’étendue de couverture de l’activité et des fonctionnalités de traçabilité prises en charge.

Lorsque vous connectez Azure Synapse Analytics à Microsoft Purview, chaque fois qu’une activité de pipeline prise en charge est exécutée, les métadonnées relatives aux données sources de l’activité, aux données de sortie et à l’activité sont automatiquement ingérées dans le Mappage de données Microsoft Purview.

Si une source de données a déjà été analysée et existe dans la carte de données, le processus d’ingestion ajoute les informations de traçabilité de Azure Synapse Analytics à cette source existante. Si la source ou la sortie n’existe pas dans le mappage de données et qu’elle est prise en charge par Azure Synapse lignage Analytics, Microsoft Purview ajoute automatiquement ses métadonnées de Synapse Analytics dans le mappage de données sous la collection racine.

Il peut s’agir d’un excellent moyen de surveiller votre patrimoine de données à mesure que les utilisateurs déplacent et transforment des informations à l’aide de Azure Synapse Analytics.

Fonctionnalités Azure Synapse prises en charge

Actuellement, Microsoft Purview capture la traçabilité d’exécution des activités de pipeline Azure Synapse suivantes :

Important

Microsoft Purview supprime la traçabilité si la source ou la destination utilise un système de stockage de données non pris en charge.

Prise en charge de l’activité de copie

Banque de données Prise en charge
Stockage Blob Azure Oui
Recherche cognitive Azure Oui
Azure Cosmos DB for NoSQL * Oui
Azure Cosmos DB for MongoDB * Oui
Azure Data Explorer * Oui
Azure Data Lake Storage Gen1 Oui
Azure Data Lake Storage Gen2 Oui
Azure Database pour MariaDB * Oui
Azure Database pour MySQL * Oui
Azure Database pour PostgreSQL * Oui
Azure Files Oui
Azure SQL Database * Oui
Azure SQL Managed Instance * Oui
Azure Synapse Analytics * Oui
Pool SQL dédié Azure (anciennement SQL DW)* Oui
Stockage de table Azure Oui
Amazon S3 Oui
Hive* Oui
Oracle * Oui
Tableau SAP (lors de la connexion à SAP ECC ou SAP S/4HANA) Oui
SQL Server * Oui
Teradata * Oui

* Microsoft Purview ne prend pas en charge à l’heure actuelle les requêtes ni les procédures stockées pour la traçabilité et l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.

Si vous utilisez le runtime d’intégration autohébergé, notez la version minimale avec prise en charge de la traçabilité pour les actions suivantes :

  • N’importe quel cas d’usage : version 5.9.7885.3 ou ultérieure
  • Copie de données à partir d’Oracle : version 5.10 ou ultérieure
  • Copie de données dans Azure Synapse Analytics via la commande COPY ou PolyBase : version 5.10 ou ultérieure

Limitations relatives à la traçabilité de l’activité Copy

Si vous utilisez les fonctionnalités suivantes de l’activité Copy, la traçabilité n’est pas encore prise en charge :

  • Copie de données dans Azure Data Lake Storage Gen1 au format binaire
  • Paramètre de compression pour les fichiers binaires, texte délimité, Excel, JSON et XML
  • Options de partition source pour Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server et la table SAP
  • Copie de données dans un récepteur basé sur des fichiers avec paramètre de nombre maximal de lignes par fichier
  • La traçabilité au niveau des colonnes n’est actuellement pas prise en charge par la copie ADF pour les jeux de ressources.

En plus de la traçabilité des données, le schéma de la ressource de données (affiché sous l’onglet Ressource -> Schéma) est signalé pour les connecteurs suivants :

  • Fichiers CSV et Parquet sur Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 et Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

Prise en charge de flux de données

Banque de données Prise en charge
Stockage Blob Azure Oui
Azure Cosmos DB for NoSQL * Oui
Azure Data Lake Storage Gen1 Oui
Azure Data Lake Storage Gen2 Oui
Azure Database pour MySQL * Oui
Azure Database pour PostgreSQL * Oui
Azure SQL Database * Oui
Azure SQL Managed Instance * Oui
Azure Synapse Analytics * Oui
Pool SQL dédié Azure (anciennement SQL DW)* Oui

* Microsoft Purview ne prend pas en charge à l’heure actuelle les requêtes ni les procédures stockées pour la traçabilité et l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.

Limitations relatives à la traçabilité du flux de données

Pour le moment, la traçabilité du flux de données ne s’intègre pas à l’ensemble de ressources de Microsoft Purview.

Accéder à un compte Microsoft Purview sécurisé

Si votre compte Microsoft Purview est protégé par un pare-feu, découvrez comment autoriser Azure Synapse à accéder à un compte Purview sécurisé via des points de terminaison privés Microsoft Purview.

Intégrer la traçabilité Azure Synapse dans Microsoft Purview

Étape 1 : Connecter l’espace de travail Azure Synapse à votre compte Microsoft Purview

Vous pouvez connecter un espace de travail Azure Synapse à Microsoft Purview, et la connexion permet à Azure Synapse d’envoyer des informations de traçabilité à Microsoft Purview. Suivez les étapes de la section Connecter l'espace de travail Synapse à Microsoft Purview. Plusieurs espaces de travail Azure Synapse peuvent se connecter à un même compte Microsoft Purview pour un suivi de traçabilité complet.

Étape 2 : Exécuter le pipeline dans l’espace de travail Azure Synapse

Vous pouvez créer des pipelines avec l’activité de copie dans l’espace de travail Azure synapse. Vous n’avez pas besoin d’autre configuration pour la capture de données de traçabilité. Les données de traçabilité sont automatiquement capturées lors de l’exécution des activités.

Étape 3 : Surveiller l’état des rapports de traçabilité

Après avoir exécuté le pipeline Azure Synapse, dans la vue de supervision du pipeline Synapse, vous pouvez vérifier l’état du rapport de traçabilité en sélectionnant le bouton État de la traçabilité suivant. Vous retrouverez les mêmes informations dans la section >reportLineageToPurvew de la sortie JSON de l’activité.

Superviser l’état du rapport de traçabilité dans la vue de supervision du pipeline.

Étape 4 : Afficher les informations de traçabilité dans votre compte Microsoft Purview

Dans votre compte Microsoft Purview, vous pouvez parcourir les ressources et choisir le type « Azure Synapse Analytics ». Vous pouvez également effectuer une recherche dans Data Catalog en utilisant des mots clés.

Parcourir les ressources Azure Synapse dans Microsoft Purview.

Sélectionnez le compte Synapse -> pipeline -> activité pour visualiser les informations de traçabilité.

Parcourir la traçabilité du pipeline Azure Synapse dans Microsoft Purview.

Dans le portail de gouvernance Microsoft Purview, vous pouvez surveiller les liens Azure Synapse Analytics.

Étapes suivantes

Guide de l’utilisateur sur la traçabilité Data Catalog

Lien vers Azure Data Share pour la traçabilité