Comment obtenir la traçabilité des données depuis Azure Synapse Analytics dans Microsoft Purview
Ce document explique les étapes requises pour connecter un espace de travail Azure Synapse avec un compte Microsoft Purview afin de suivre la traçabilité des données et d’ingérer des sources de données. Le document aborde également les détails de l’étendue de couverture de l’activité et des fonctionnalités de traçabilité prises en charge.
Lorsque vous connectez Azure Synapse Analytics à Microsoft Purview, chaque fois qu’une activité de pipeline prise en charge est exécutée, les métadonnées relatives aux données sources de l’activité, aux données de sortie et à l’activité sont automatiquement ingérées dans le Mappage de données Microsoft Purview.
Si une source de données a déjà été analysée et existe dans la carte de données, le processus d’ingestion ajoute les informations de traçabilité de Azure Synapse Analytics à cette source existante. Si la source ou la sortie n’existe pas dans le mappage de données et qu’elle est prise en charge par Azure Synapse lignage Analytics, Microsoft Purview ajoute automatiquement ses métadonnées de Synapse Analytics dans le mappage de données sous la collection racine.
Il peut s’agir d’un excellent moyen de surveiller votre patrimoine de données à mesure que les utilisateurs déplacent et transforment des informations à l’aide de Azure Synapse Analytics.
Fonctionnalités Azure Synapse prises en charge
Actuellement, Microsoft Purview capture la traçabilité d’exécution des activités de pipeline Azure Synapse suivantes :
Important
Microsoft Purview supprime la traçabilité si la source ou la destination utilise un système de stockage de données non pris en charge.
Prise en charge de l’activité de copie
Banque de données | Prise en charge |
---|---|
Stockage Blob Azure | Oui |
Recherche cognitive Azure | Oui |
Azure Cosmos DB for NoSQL * | Oui |
Azure Cosmos DB for MongoDB * | Oui |
Azure Data Explorer * | Oui |
Azure Data Lake Storage Gen1 | Oui |
Azure Data Lake Storage Gen2 | Oui |
Azure Database pour MariaDB * | Oui |
Azure Database pour MySQL * | Oui |
Azure Database pour PostgreSQL * | Oui |
Azure Files | Oui |
Azure SQL Database * | Oui |
Azure SQL Managed Instance * | Oui |
Azure Synapse Analytics * | Oui |
Pool SQL dédié Azure (anciennement SQL DW)* | Oui |
Stockage de table Azure | Oui |
Amazon S3 | Oui |
Hive* | Oui |
Oracle * | Oui |
Tableau SAP (lors de la connexion à SAP ECC ou SAP S/4HANA) | Oui |
SQL Server * | Oui |
Teradata * | Oui |
* Microsoft Purview ne prend pas en charge à l’heure actuelle les requêtes ni les procédures stockées pour la traçabilité et l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.
Si vous utilisez le runtime d’intégration autohébergé, notez la version minimale avec prise en charge de la traçabilité pour les actions suivantes :
- N’importe quel cas d’usage : version 5.9.7885.3 ou ultérieure
- Copie de données à partir d’Oracle : version 5.10 ou ultérieure
- Copie de données dans Azure Synapse Analytics via la commande COPY ou PolyBase : version 5.10 ou ultérieure
Limitations relatives à la traçabilité de l’activité Copy
Si vous utilisez les fonctionnalités suivantes de l’activité Copy, la traçabilité n’est pas encore prise en charge :
- Copie de données dans Azure Data Lake Storage Gen1 au format binaire
- Paramètre de compression pour les fichiers binaires, texte délimité, Excel, JSON et XML
- Options de partition source pour Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server et la table SAP
- Copie de données dans un récepteur basé sur des fichiers avec paramètre de nombre maximal de lignes par fichier
- La traçabilité au niveau des colonnes n’est actuellement pas prise en charge par la copie ADF pour les jeux de ressources.
En plus de la traçabilité des données, le schéma de la ressource de données (affiché sous l’onglet Ressource -> Schéma) est signalé pour les connecteurs suivants :
- Fichiers CSV et Parquet sur Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 et Amazon S3
- Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata
Prise en charge de flux de données
Banque de données | Prise en charge |
---|---|
Stockage Blob Azure | Oui |
Azure Cosmos DB for NoSQL * | Oui |
Azure Data Lake Storage Gen1 | Oui |
Azure Data Lake Storage Gen2 | Oui |
Azure Database pour MySQL * | Oui |
Azure Database pour PostgreSQL * | Oui |
Azure SQL Database * | Oui |
Azure SQL Managed Instance * | Oui |
Azure Synapse Analytics * | Oui |
Pool SQL dédié Azure (anciennement SQL DW)* | Oui |
* Microsoft Purview ne prend pas en charge à l’heure actuelle les requêtes ni les procédures stockées pour la traçabilité et l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.
Limitations relatives à la traçabilité du flux de données
Pour le moment, la traçabilité du flux de données ne s’intègre pas à l’ensemble de ressources de Microsoft Purview.
Accéder à un compte Microsoft Purview sécurisé
Si votre compte Microsoft Purview est protégé par un pare-feu, découvrez comment autoriser Azure Synapse à accéder à un compte Purview sécurisé via des points de terminaison privés Microsoft Purview.
Intégrer la traçabilité Azure Synapse dans Microsoft Purview
Étape 1 : Connecter l’espace de travail Azure Synapse à votre compte Microsoft Purview
Vous pouvez connecter un espace de travail Azure Synapse à Microsoft Purview, et la connexion permet à Azure Synapse d’envoyer des informations de traçabilité à Microsoft Purview. Suivez les étapes de la section Connecter l'espace de travail Synapse à Microsoft Purview. Plusieurs espaces de travail Azure Synapse peuvent se connecter à un même compte Microsoft Purview pour un suivi de traçabilité complet.
Étape 2 : Exécuter le pipeline dans l’espace de travail Azure Synapse
Vous pouvez créer des pipelines avec l’activité de copie dans l’espace de travail Azure synapse. Vous n’avez pas besoin d’autre configuration pour la capture de données de traçabilité. Les données de traçabilité sont automatiquement capturées lors de l’exécution des activités.
Étape 3 : Surveiller l’état des rapports de traçabilité
Après avoir exécuté le pipeline Azure Synapse, dans la vue de supervision du pipeline Synapse, vous pouvez vérifier l’état du rapport de traçabilité en sélectionnant le bouton État de la traçabilité suivant. Vous retrouverez les mêmes informations dans la section >reportLineageToPurvew
de la sortie JSON de l’activité.
Étape 4 : Afficher les informations de traçabilité dans votre compte Microsoft Purview
Dans votre compte Microsoft Purview, vous pouvez parcourir les ressources et choisir le type « Azure Synapse Analytics ». Vous pouvez également effectuer une recherche dans Data Catalog en utilisant des mots clés.
Sélectionnez le compte Synapse -> pipeline -> activité pour visualiser les informations de traçabilité.
Surveiller les liens Azure Synapse Analytics
Dans le portail de gouvernance Microsoft Purview, vous pouvez surveiller les liens Azure Synapse Analytics.