Datenqualität mit Microsoft Purview Unified Catalog

Artikel
01/28/2025

Die Datenqualität in Microsoft Purview Unified Catalog ermöglicht es Governancedomänen und Datenbesitzern, die Qualität ihres Datenökosystems zu bewerten und zu überwachen, was gezielte Verbesserungsmaßnahmen ermöglicht. In der heutigen KI-gestützten Landschaft wirkt sich die Zuverlässigkeit von Daten direkt auf die Genauigkeit kigesteuerter Erkenntnisse und Empfehlungen aus. Ohne vertrauenswürdige Daten besteht die Gefahr, dass das Vertrauen in KI-Systeme beeinträchtigt wird und deren Einführung behindert wird.

Eine schlechte Datenqualität oder inkompatible Datenstrukturen können Geschäftsprozesse und Entscheidungsfunktionen beeinträchtigen. Die Datenqualität löst diese Herausforderungen, indem Sie Benutzern die Möglichkeit bietet, die Datenqualität mithilfe von Regeln ohne oder mit geringem Code zu bewerten, einschließlich sofort einsatzbereiter Regeln (OOB) und KI-generierter Regeln. Diese Regeln werden auf Spaltenebene angewendet und aggregiert, um Bewertungen auf der Ebene von Datenassets, Datenprodukten und Governancedomänen zu liefern, sodass die End-to-End-Sichtbarkeit der Datenqualität innerhalb der einzelnen Domänen sichergestellt wird.

Die Datenqualität umfasst auch KI-gestützte Datenprofilerstellungsfunktionen, die Spalten für die Profilerstellung empfehlen, während menschliches Eingreifen diese Empfehlungen verfeinern kann. Dieser iterative Prozess verbessert nicht nur die Genauigkeit der Datenprofilerstellung, sondern trägt auch zur kontinuierlichen Verbesserung der zugrunde liegenden KI-Modelle bei.

Durch die Anwendung von Datenqualität können Organisationen die Qualität ihrer Datenressourcen effektiv messen, überwachen und verbessern, um die Zuverlässigkeit kigesteuerter Erkenntnisse zu stärken und das Vertrauen in KI-basierte Entscheidungsprozesse zu stärken.

Lebenszyklus der Datenqualität

Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
Registrieren und überprüfen Sie eine Datenquelle in Ihrem Microsoft Purview Data Map.
Hinzufügen Ihrer Datenressource zu einem Datenprodukt
Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
1. Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.
Wiederholen Sie die Schritte 5 bis 8 in regelmäßigen Abständen über den Lebenszyklus Ihrer Datenressource, um sicherzustellen, dass die Qualität erhalten bleibt.
Kontinuierliches Überwachen der Datenqualität
1. Überprüfen Sie Datenqualitätsaktionen , um Probleme zu identifizieren und zu beheben.
2. Legen Sie Data Quality-Benachrichtigungen fest, um Sie bei Qualitätsproblemen zu benachrichtigen.

Unterstützte Data Quality-Regionen

Die Datenqualität wird derzeit in den folgenden Regionen unterstützt:

Unterstützte Multiclouddatenquellen

Azure Data Lake Storage (ADLS Gen2)
- Dateitypen: Delta Parquet und Parquet
Azure SQL-Datenbank
Fabric-Datenbestand in OneLake einschließlich Verknüpfungs- und Spiegelungsdatenbestand. Die Überprüfung der Datenqualität wird nur für Lakehouse-Deltatabellen und Parquet-Dateien unterstützt.
- Spiegelungsdatenbestand: Cosmos DB, Snowflake, Azure SQL
- Verknüpfungsdatenbestand: AWS S3, GCS, AdlsG2 und Dataverse
Azure Synapse serverlos und Data Warehouse
Azure Databricks Unity Catalog
Schneeflocke
Google Big Query (private Vorschau)
Iceberg-Daten in ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 und GCP GCS

Wichtig

Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind, sondern ein direkter FQN sein muss, der zu {SparkPartitions} führt.
Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt. Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Es wird empfohlen, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Derzeit kann Microsoft Purview nur Überprüfungen zur Datenqualität mit verwalteter Identität als Authentifizierungsoption ausführen. Data Quality Services werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt.

Data Quality-Features

Konfiguration der Datenquellenverbindung
- Konfigurieren Sie die Verbindung, damit die Purview DQ SaaS-Anwendung Lesezugriff auf Daten für Qualitätsüberprüfungen und -profilerstellungen hat.
- MS Purview verwendet verwaltete Identität als Authentifizierungsoption.
Datenprofilerstellung
- KI-fähige Datenprofilerstellung
- Branchenstandard statistische Momentaufnahme (Verteilung, Min, Max, Standardabweichung, Eindeutigkeit, Vollständigkeit, Duplikat, ...)
- Drilldown für Profilerstellungsmeasures auf Spaltenebene.
Regeln zur Datenqualität
- Vorkonformitätsregeln zum Messen von sechs Branchenstandards Datenqualitätsdimensionen (Vollständigkeit, Konsistenz, Konformität, Genauigkeit, Aktualität und Eindeutigkeit)
- Benutzerdefinierte Regelerstellungsfeatures umfassen die Anzahl der sofort einsatzbereiten Funktionen und Ausdruckswerte.
- Automatisch generierte Regeln mit kiintegrierter Benutzeroberfläche
Datenqualitätsüberprüfung
- Wählen Sie Regeln aus, und weisen Sie sie Spalten für die Datenqualitätsüberprüfung zu.
- Wenden Sie die Datenfrischheitsregel auf Entitäts-/Tabellenebene an, um die SLA für die Aktualität der Daten zu messen.
- Planen des Data Quality-Überprüfungsauftrags für einen bestimmten Zeitraum (stündlich, täglich, wöchentlich, monatlich usw.)
Data Quality-Auftragsüberwachung
- Aktivieren des Überwachungsauftrags für data quality status (aktiv, abgeschlossen, fehlgeschlagen usw.)
- Aktivieren Sie das Durchsuchen des DQ-Überprüfungsverlaufs.
Datenqualitätsbewertung
- Datenqualitätsbewertung auf Regelebene (was ist die Qualitätsbewertung für eine Regel, die auf eine Spalte angewendet wurde)
- Datenqualitätsbewertung für Datenressourcen, Datenprodukte und Governancedomänen (eine Governancedomäne kann über viele Datenprodukte verfügen, ein Datenprodukt kann über viele Datenressourcen verfügen, ein Datenressource kann über viele Datenspalten verfügen)
Datenqualität für kritische Datenelemente (CDEs)
- Dies ist eines der wichtigsten Merkmale der Datenqualität, die Möglichkeit, Datenqualitätsregeln auf das logische Konstrukt von CDEs anzuwenden, die dann an die physischen Datenelemente weitergegeben werden, aus denen sie bestehen. Durch das Definieren von Datenqualitätsregeln auf CDEs-Ebene können Organisationen bestimmte Kriterien und Schwellenwerte festlegen, die CDEs erfüllen müssen, um ihre Qualität aufrechtzuerhalten.
Data Quality-Warnungen
- Konfigurieren Sie Warnungen, um Datenbesitzer und Data Stewards zu benachrichtigen, wenn der Schwellenwert für die Datenqualität die Erwartungen verfehlt hat.
- Konfigurieren Sie den E-Mail-Alias oder die Verteilergruppe, um die Benachrichtigung über Probleme mit der Datenqualität zu senden.
Aktionen zur Datenqualität
- Aktionscenter für DQ mit Aktionen zum Behandeln von DQ-Anomaliezuständen, einschließlich Diagnoseabfragen für DQ Steward, um die spezifischen Daten zu beheben, die für jeden Anomaliezustand behoben werden müssen.
Verwaltetes virtuelles Netzwerk mit Datenqualität
- Ein virtuelles Netzwerk, das durch Datenqualität verwaltet wird und eine Verbindung mit privaten Endpunkten mit Ihren Azure-Datenquellen herstellt.

Einschränkung

vNet wird für Google Big Query, Snowflake und Azure Databricks Unity-Katalog nicht unterstützt.

Nächste Schritte

Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.

Teilen über

Datenqualität mit Microsoft Purview Unified Catalog

Lebenszyklus der Datenqualität

Unterstützte Data Quality-Regionen

Unterstützte Multiclouddatenquellen

Data Quality-Features

Einschränkung

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Teilen über

Datenqualität mit Microsoft Purview Unified Catalog

Lebenszyklus der Datenqualität

Unterstützte Data Quality-Regionen

Unterstützte Multiclouddatenquellen

Data Quality-Features

Einschränkung

Verwandte Inhalte

Nächste Schritte

Feedback

Zusätzliche Ressourcen