Qualité des données avec Catalogue unifié Microsoft Purview
Article
La qualité des données dans Catalogue unifié Microsoft Purview permet aux domaines de gouvernance et aux propriétaires de données d’évaluer et de superviser la qualité de leur écosystème de données, ce qui facilite les actions ciblées pour l’amélioration. Dans le paysage actuel piloté par l’IA, la fiabilité des données a un impact direct sur la précision des insights et des recommandations pilotés par l’IA. Sans données dignes de confiance, il existe un risque d’éroder la confiance dans les systèmes d’IA et d’entraver leur adoption.
Une mauvaise qualité des données ou des structures de données incompatibles peuvent entraver les processus métier et les capacités de prise de décision. La qualité des données répond à ces défis en offrant aux utilisateurs la possibilité d’évaluer la qualité des données à l’aide de règles sans code/low-code, y compris les règles OOB (out-of-the-box) et les règles générées par l’IA. Ces règles sont appliquées au niveau de la colonne et agrégées pour fournir des scores aux niveaux des ressources de données, des produits de données et des domaines de gouvernance, ce qui garantit une visibilité de bout en bout de la qualité des données dans chaque domaine.
La qualité des données intègre également des fonctionnalités de profilage des données basées sur l’IA, ce qui recommande des colonnes pour le profilage tout en permettant à l’intervention humaine d’affiner ces recommandations. Ce processus itératif améliore non seulement la précision du profilage des données, mais contribue également à l’amélioration continue des modèles IA sous-jacents.
En appliquant la qualité des données, les organisations peuvent mesurer, surveiller et améliorer efficacement la qualité de leurs ressources de données, ce qui renforce la fiabilité des insights pilotés par l’IA et favorise la confiance dans les processus décisionnels basés sur l’IA.
Une fois le profilage terminé, parcourez les résultats de chaque colonne de la ressource de données pour comprendre la structure et l’état actuels de vos données.
Patrimoine de données fabric dans OneLake, y compris le raccourci et le patrimoine de données de mise en miroir. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
Mise en miroir du patrimoine de données : Cosmos DB, Snowflake, Azure SQL
Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2 et dataverse
Azure Synapse serverless et l’entrepôt de données
Catalogue Unity d' Azure Databricks
Flocon de neige
Google Big Query (préversion privée)
Données iceberg dans ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 et GCP GCS
Important
La qualité des données du fichier Parquet est conçue pour prendre en charge :
Répertoire avec fichier de composant Parquet. Par exemple : ./Sales/{Parquet Part Files}. Le nom complet doit suivre https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assurez-vous que nous n’avons pas de modèles {n} dans la structure de répertoires/sous-répertoires. Il doit plutôt s’agir d’un nom de domaine complet direct menant à {SparkPartitions}.
Répertoire avec des fichiers Parquet partitionnés, partitionnés par colonnes dans le jeu de données, comme les données de ventes partitionnée par année et par mois. Par exemple : ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Ces deux scénarios essentiels, qui présentent un schéma de jeu de données Parquet cohérent, sont pris en charge.
Limitation: Il n’est pas conçu pour ou ne prend pas en charge N hiérarchies arbitraires de répertoires avec des fichiers Parquet.
Nous vous recommandons de présenter des données dans (1) ou (2) structure construite.
Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.
Configurez la connexion pour autoriser l’application SaaS Purview DQ à disposer d’un accès en lecture aux données pour l’analyse qualité et le profilage.
MS Purview utilise l’identité managée comme option d’authentification
Règles prêtes à l’emploi pour mesurer six normes industrielles Dimensions de la qualité des données (exhaustivité, cohérence, conformité, précision, actualisation et unicité)
Les fonctionnalités de création de règles personnalisées incluent le nombre de fonctions prêtes à l’emploi et de valeurs d’expression.
Règles générées automatiquement avec expérience intégrée à l’IA
Sélectionnez et affectez des règles aux colonnes pour l’analyse de la qualité des données.
Appliquez la règle d’actualisation des données au niveau de l’entité/de la table pour mesurer le contrat SLA d’actualisation des données.
Planification du travail d’analyse de la qualité des données pour une période de temps (toutes les heures, tous les jours, hebdomadaires, mensuels, etc.)
Score de qualité des données au niveau de la règle (quel est le score de qualité d’une règle qui s’applique à une colonne)
Score de qualité des données pour les ressources de données, les produits de données et les domaines de gouvernance (un domaine de gouvernance peut avoir plusieurs produits de données, un produit de données peut avoir plusieurs ressources de données, une ressource de données peut avoir plusieurs colonnes de données)
Il s’agit de l’une des principales caractéristiques de la qualité des données, c’est-à-dire la possibilité d’appliquer des règles de qualité des données à la construction logique des CDE, qui se propagent ensuite aux éléments de données physiques qui les composent. En définissant des règles de qualité des données au niveau des CTE, les organisations peuvent établir des critères et des seuils spécifiques que les CED doivent respecter pour maintenir leur qualité
Configurez des alertes pour avertir les propriétaires de données et les gestionnaires de données si le seuil de qualité des données n’a pas été atteint.
configurez l’alias de messagerie ou le groupe de distribution pour envoyer la notification sur les problèmes de qualité des données.
Centre d’actions pour DQ avec des actions pour traiter les états d’anomalie DQ, y compris les requêtes de diagnostic pour le gestionnaire de DQ à zéro sur les données spécifiques à corriger pour chaque état d’anomalie.
Ce module de formation vous guide dans la création d’une pile complète de gestion des données de référence et de gouvernance des données de bout en bout avec Microsoft Purview et CluedIn. Il comprend le développement d’enregistrements de référence, la déduplication, la traçabilité des données et des stratégies de qualité des données.
Faites la démonstration d’une compréhension des tâches d’engineering données courantes pour implémenter et gérer des charges de travail d’engineering données sur Microsoft Azure en utilisant un certain nombre de services Azure.