Cet article fournit une vue d’ensemble de la traçabilité des données dans Catalogue de données Microsoft Purview. Il explique également comment les systèmes de données peuvent s’intégrer au catalogue pour capturer la traçabilité des données. Microsoft Purview peut capturer la traçabilité des données dans différentes parties du patrimoine de données de votre organization et à différents niveaux de préparation, notamment :
Données brutes intermédiaires à partir de différentes plateformes
Données transformées et préparées
Données utilisées par les plateformes de visualisation
Cas d'utilisation
La traçabilité des données est généralement comprise comme le cycle de vie qui couvre l’origine des données et où elles se déplacent au fil du temps dans le patrimoine de données. Il est utilisé pour différents types de scénarios rétrogrades, tels que la résolution des problèmes, le suivi de la cause racine dans les pipelines de données et le débogage. La traçabilité est également utilisée pour l’analyse de la qualité des données, la conformité et les scénarios « what if » souvent appelés analyse d’impact. La traçabilité est représentée visuellement pour montrer les données se déplaçant de la source à la destination, y compris la façon dont les données ont été transformées. Étant donné la complexité de la plupart des environnements de données d’entreprise, ces vues peuvent être difficiles à comprendre sans effectuer de consolidation ou de masquage des points de données périphériques.
Expérience de traçabilité dans Catalogue de données Microsoft Purview
Catalogue de données Microsoft Purview se connectera à d’autres systèmes de traitement, de stockage et d’analytique des données pour extraire des informations de traçabilité. Les informations sont combinées pour représenter une expérience de traçabilité générique spécifique au scénario dans le catalogue.
Votre patrimoine de données peut inclure des systèmes d’extraction de données, de transformation (systèmes ETL/ELT), d’analytique et de visualisation. Chacun des systèmes capture des métadonnées statiques et opérationnelles riches qui décrivent l’état et la qualité des données dans la limite des systèmes. L’objectif de la traçabilité dans un catalogue de données est d’extraire le déplacement, la transformation et les métadonnées opérationnelles de chaque système de données au grain le plus bas possible.
L’exemple suivant est un cas d’usage classique de données déplacées entre plusieurs systèmes, où le Data Catalog se connecterait à chacun des systèmes pour la traçabilité.
Data Factory copie les données de la zone locale/brute vers une zone d’atterrissage dans le cloud.
Les systèmes de traitement des données comme Synapse et Databricks traitent et transforment les données de la zone d’atterrissage vers la zone organisée à l’aide de notebooks.
Traitement ultérieur des données dans des modèles analytiques pour optimiser les performances et l’agrégation des requêtes.
Les systèmes de visualisation des données consomment les jeux de données et les traitent via leur métamodélise pour créer un tableau de bord BI, des expériences ML, etc.
Granularité de traçabilité
La section suivante décrit en détail la granularité de laquelle les informations de traçabilité sont collectées par Microsoft Purview. Cette granularité peut varier en fonction des systèmes de données pris en charge dans Microsoft Purview.
Traçabilité au niveau de l’entité : source(s) cible(s) > de processus >
La traçabilité est représentée sous la forme d’un graphe. Elle contient généralement des entités source et cible dans les systèmes de stockage de données qui sont connectées par un processus appelé par un système de calcul.
Les systèmes de données se connectent au catalogue de données pour générer et signaler un objet unique référençant l’objet physique du système de données sous-jacent, par exemple : procédure stockée SQL, notebooks, etc.
La traçabilité haute fidélité avec d’autres métadonnées telles que la propriété est capturée pour afficher la traçabilité dans un format lisible par l’homme pour les entités cibles sources & . par exemple : traçabilité au niveau d’une table hive plutôt qu’au niveau des partitions ou des fichiers.
Traçabilité au niveau de la colonne ou de l’attribut
Identifiez les attributs d’une entité source utilisée pour créer ou dériver des attributs dans l’entité cible. Le nom de l’attribut source peut être conservé ou renommé dans une cible. Les systèmes comme ADF peuvent effectuer une copie unique de l’environnement local vers le cloud. Par exemple : Table1/ColumnA -> Table2/ColumnA.
Status d’exécution du processus
Pour prendre en charge l’analyse de la cause racine et les scénarios de qualité des données, nous capturons l’exécution status des travaux dans les systèmes de traitement des données. Cette exigence n’a rien à voir avec le remplacement des fonctionnalités de surveillance d’autres systèmes de traitement des données, ni l’objectif n’est de les remplacer.
Résumé
La traçabilité est une fonctionnalité essentielle de la Catalogue de données Microsoft Purview pour prendre en charge les scénarios de qualité, de confiance et d’audit. L’objectif d’un catalogue de données est de créer une infrastructure robuste où tous les systèmes de données de votre environnement peuvent naturellement se connecter et signaler la traçabilité. Une fois les métadonnées disponibles, le catalogue de données peut regrouper les métadonnées fournies par les systèmes de données pour alimenter les cas d’usage de gouvernance des données.
Faites la démonstration d’une compréhension des tâches d’engineering données courantes pour implémenter et gérer des charges de travail d’engineering données sur Microsoft Azure en utilisant un certain nombre de services Azure.