Datenqualität mit Microsoft Purview Unified Catalog
Artikel
Die Datenqualität in Microsoft Purview Unified Catalog ermöglicht es Governancedomänen und Datenbesitzern, die Qualität ihres Datenökosystems zu bewerten und zu überwachen, was gezielte Verbesserungsmaßnahmen ermöglicht. In der heutigen KI-gestützten Landschaft wirkt sich die Zuverlässigkeit von Daten direkt auf die Genauigkeit kigesteuerter Erkenntnisse und Empfehlungen aus. Ohne vertrauenswürdige Daten besteht die Gefahr, dass das Vertrauen in KI-Systeme beeinträchtigt wird und deren Einführung behindert wird.
Eine schlechte Datenqualität oder inkompatible Datenstrukturen können Geschäftsprozesse und Entscheidungsfunktionen beeinträchtigen. Die Datenqualität löst diese Herausforderungen, indem Sie Benutzern die Möglichkeit bietet, die Datenqualität mithilfe von Regeln ohne oder mit geringem Code zu bewerten, einschließlich sofort einsatzbereiter Regeln (OOB) und KI-generierter Regeln. Diese Regeln werden auf Spaltenebene angewendet und aggregiert, um Bewertungen auf der Ebene von Datenassets, Datenprodukten und Governancedomänen zu liefern, sodass die End-to-End-Sichtbarkeit der Datenqualität innerhalb der einzelnen Domänen sichergestellt wird.
Die Datenqualität umfasst auch KI-gestützte Datenprofilerstellungsfunktionen, die Spalten für die Profilerstellung empfehlen, während menschliches Eingreifen diese Empfehlungen verfeinern kann. Dieser iterative Prozess verbessert nicht nur die Genauigkeit der Datenprofilerstellung, sondern trägt auch zur kontinuierlichen Verbesserung der zugrunde liegenden KI-Modelle bei.
Durch die Anwendung von Datenqualität können Organisationen die Qualität ihrer Datenressourcen effektiv messen, überwachen und verbessern, um die Zuverlässigkeit kigesteuerter Erkenntnisse zu stärken und das Vertrauen in KI-basierte Entscheidungsprozesse zu stärken.
Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
Wiederholen Sie die Schritte 5 bis 8 in regelmäßigen Abständen über den Lebenszyklus Ihrer Datenressource, um sicherzustellen, dass die Qualität erhalten bleibt.
Fabric-Datenbestand in OneLake einschließlich Verknüpfungs- und Spiegelungsdatenbestand. Die Überprüfung der Datenqualität wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2 und Dataverse
Azure Synapse serverlos und Data Warehouse
Azure Databricks Unity Catalog
Schneeflocke
Google Big Query (private Vorschau)
Iceberg-Daten in ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 und GCP GCS
Wichtig
Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:
Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt.
Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt.
Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt.
Es wird empfohlen, Daten in (1) oder (2) konstruierter Struktur darzustellen.
Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality Services werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt.
Vorkonformitätsregeln zum Messen von sechs Branchenstandards Datenqualitätsdimensionen (Vollständigkeit, Konsistenz, Konformität, Genauigkeit, Aktualität und Eindeutigkeit)
Benutzerdefinierte Regelerstellungsfeatures umfassen die Anzahl der sofort einsatzbereiten Funktionen und Ausdruckswerte.
Automatisch generierte Regeln mit kiintegrierter Benutzeroberfläche
Datenqualitätsbewertung auf Regelebene (was ist die Qualitätsbewertung für eine Regel, die auf eine Spalte angewendet wurde)
Datenqualitätsbewertung für Datenressourcen, Datenprodukte und Governancedomänen (eine Governancedomäne kann über viele Datenprodukte verfügen, ein Datenprodukt kann über viele Datenressourcen verfügen, ein Datenressource kann über viele Datenspalten verfügen)
Dies ist eines der wichtigsten Merkmale der Datenqualität, die Möglichkeit, Datenqualitätsregeln auf das logische Konstrukt von CDEs anzuwenden, die dann an die physischen Datenelemente weitergegeben werden, aus denen sie bestehen. Durch das Definieren von Datenqualitätsregeln auf CDEs-Ebene können Organisationen bestimmte Kriterien und Schwellenwerte festlegen, die CDEs erfüllen müssen, um ihre Qualität aufrechtzuerhalten.
Konfigurieren Sie Warnungen, um Datenbesitzer und Data Stewards zu benachrichtigen, wenn der Schwellenwert für die Datenqualität die Erwartungen verfehlt hat.
Konfigurieren Sie den E-Mail-Alias oder die Verteilergruppe, um die Benachrichtigung über Probleme mit der Datenqualität zu senden.
Aktionscenter für DQ mit Aktionen zum Behandeln von DQ-Anomaliezuständen, einschließlich Diagnoseabfragen für DQ Steward, um die spezifischen Daten zu beheben, die für jeden Anomaliezustand behoben werden müssen.
In diesem Schulungsmodul lernen Sie, wie Sie mit Microsoft Purview und CluedIn ein komplettes Stammdatenmanagement- und Data Governance-System aufbauen können. Dies umfasst die Entwicklung von Strategien für Golden Records, Deduplizierung, Datenherkunft und Datenqualität.
Zeigen Sie Ihre Kenntnisse von allgemeinen Datentechnikaufgaben zum Implementieren und Verwalten von Datentechnikworkloads in Microsoft Azure unter Verwendung verschiedener Azure-Dienste.