Übersicht über die Datenqualität in Microsoft Purview Unified Catalog

Die Datenqualität in Microsoft Purview Unified Catalog ermöglicht es Governancedomänen und Datenbesitzern, die Qualität ihres Datenökosystems zu bewerten und zu überwachen, was gezielte Verbesserungsmaßnahmen ermöglicht. In der heutigen KI-gestützten Landschaft wirkt sich die Zuverlässigkeit von Daten direkt auf die Genauigkeit kigesteuerter Erkenntnisse und Empfehlungen aus. Ohne vertrauenswürdige Daten besteht die Gefahr, dass das Vertrauen in KI-Systeme beeinträchtigt wird und deren Einführung behindert wird.

Eine schlechte Datenqualität oder inkompatible Datenstrukturen können Geschäftsprozesse und Entscheidungsfunktionen beeinträchtigen. Die Datenqualität in Unified Catalog löst diese Herausforderungen, indem Benutzern die Möglichkeit geboten wird, die Datenqualität mithilfe von Regeln ohne Code oder Low-Code zu bewerten, einschließlich sofort einsatzbereiter Regeln (OOB) und KI-generierter Regeln. Diese Regeln werden auf Spaltenebene angewendet und aggregiert, um Bewertungen auf der Ebene von Datenassets, Datenprodukten und Governancedomänen zu liefern, sodass die End-to-End-Sichtbarkeit der Datenqualität innerhalb der einzelnen Domänen sichergestellt wird.

Die Datenqualität in Microsoft Purview umfasst auch KI-gestützte Datenprofilerstellungsfunktionen, die Spalten für die Profilerstellung empfehlen, während menschliches Eingreifen diese Empfehlungen verfeinern kann. Dieser iterative Prozess verbessert nicht nur die Genauigkeit der Datenprofilerstellung, sondern trägt auch zur kontinuierlichen Verbesserung der zugrunde liegenden KI-Modelle bei.

Durch die Anwendung von Datenqualität können Organisationen die Qualität ihrer Datenressourcen effektiv messen, überwachen und verbessern, um die Zuverlässigkeit kigesteuerter Erkenntnisse zu stärken und das Vertrauen in KI-basierte Entscheidungsprozesse zu stärken.

Lebenszyklus der Datenqualität

Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
Registrieren und überprüfen Sie eine Datenquelle in Microsoft Purview Data Map.
Hinzufügen Ihrer Datenressource zu einem Datenprodukt
Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
1. Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.
Wiederholen Sie die Schritte 5 bis 8 in regelmäßigen Abständen über den Lebenszyklus Ihrer Datenressource, um sicherzustellen, dass die Qualität erhalten bleibt.
Kontinuierliches Überwachen der Datenqualität
1. Überprüfen Sie Datenqualitätsaktionen , um Probleme zu identifizieren und zu beheben.
2. Legen Sie Data Quality-Benachrichtigungen fest, um Sie bei Qualitätsproblemen zu benachrichtigen.

Unterstützte Data Quality-Regionen

Die Datenqualität wird derzeit in den folgenden Regionen unterstützt.

Unterstützte Multiclouddatenquellen

Zeigen Sie die Liste der unterstützten Datenquellen an.

Wichtig

Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass die Verzeichnis- und Unterverzeichnisstruktur keine {n}-Muster enthält. Verwenden Sie stattdessen einen direkten FQN, der zu {SparkPartitions} führt.
Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. Nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt. Einschränkung: Die Datenqualität ist nicht darauf ausgelegt, beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien zu unterstützen. Es wird empfohlen, Daten in der (1) oder (2) konstruierten Struktur darzustellen.

Derzeit kann Microsoft Purview nur Überprüfungen der Datenqualität ausführen, indem eine verwaltete Identität als Authentifizierungsoption verwendet wird. Data Quality Services werden unter Apache Spark 3.5 und Delta Lake 3.2.1 ausgeführt.

Data Quality-Features

Konfiguration der Datenquellenverbindung
- Konfigurieren Sie die Verbindung so, dass die Microsoft Purview Data Quality SaaS-Anwendung Lesezugriff auf Daten für Qualitätsüberprüfungen und Profilerstellung hat.
- Microsoft Purview verwendet verwaltete Identität als Authentifizierungsoption.
Datenprofilerstellung
- KI-fähige Datenprofilerstellung.
- Statistische Momentaufnahme nach Branchenstandard (Verteilung, Min, Max, Standardabweichung, Eindeutigkeit, Vollständigkeit, Duplikat usw.).
- Drilldown für Profilerstellungsmeasures auf Spaltenebene.
Regeln zur Datenqualität
- Standardregeln zum Messen von sechs Branchenstandards für die Datenqualitätsdimensionen (Vollständigkeit, Konsistenz, Konformität, Genauigkeit, Aktualität und Eindeutigkeit).
- Benutzerdefinierte Regelerstellungsfeatures umfassen die Anzahl der sofort einsatzbereiten Funktionen und Ausdruckswerte.
- Automatisch generierte Regeln mit kiintegrierter Benutzeroberfläche.
Datenqualitätsüberprüfung
- Wählen Sie Regeln aus, und weisen Sie sie Spalten für die Datenqualitätsüberprüfung zu.
- Wenden Sie die Datenfrischheitsregel auf Entitäts- oder Tabellenebene an, um die SLA für die Aktualität der Daten zu messen.
- Planen des Data Quality-Überprüfungsauftrags für einen bestimmten Zeitraum (stündlich, täglich, wöchentlich, monatlich usw.).
Data Quality-Auftragsüberwachung
- Aktivieren Sie die Überwachung von Data Quality-Aufträgen status (aktiv, abgeschlossen, fehlgeschlagen usw.).
- Aktivieren Sie das Durchsuchen des Verlaufs der Datenqualitätsüberprüfung.
Datenqualitätsbewertung
- Datenqualitätsbewertung auf Regelebene (was ist die Qualitätsbewertung für eine Regel, die auf eine Spalte angewendet wurde).
- Datenqualitätsbewertung für Datenassets, Datenprodukte und Governancedomänen (eine Governancedomäne kann über viele Datenprodukte verfügen, ein Datenprodukt kann über viele Datenressourcen verfügen, und eine Datenressource kann über viele Datenspalten verfügen).
Data Quality-Warnungen
- Konfigurieren Sie Warnungen, um Datenbesitzer und Data Stewards zu benachrichtigen, wenn der Schwellenwert für die Datenqualität die Erwartungen verfehlt hat.
- Konfigurieren Sie den E-Mail-Alias oder die Verteilergruppe, um die Benachrichtigung über Probleme mit der Datenqualität zu senden.
Aktionen zur Datenqualität
- Aktionscenter für Die Datenqualität mit Aktionen zum Behandeln von Anomaliezuständen für die Datenqualität, einschließlich Diagnoseabfragen für Data Quality Steward, um die spezifischen Daten zu beheben, die für jeden Anomaliezustand behoben werden müssen.
Verwaltetes virtuelles Netzwerk mit Datenqualität
- Ein durch Datenqualität verwaltetes virtuelles Netzwerk, das eine Verbindung mit privaten Endpunkten mit Ihren Microsoft Azure Datenquellen herstellt.

Datenresidenz und -verschlüsselung

Das Microsoft Managed Storage-Konto speichert Metadaten zur Datenqualität und eine Zusammenfassung der Profilerstellung. Sie werden in derselben Region wie die Datenquelle gespeichert, sodass die Datenresidenz intakt bleibt. Alle Daten sind verschlüsselt. Der regionale Benutzerdatenspeicher des Purview-Ressourcenanbieters wird für Metadaten verwendet. Es verarbeitet die gesamte Verschlüsselung und ist in allen Purview-Diensten üblich. Wenn Sie mehr Kontrolle über die Datenverschlüsselung mit einem kundenseitig verwalteten Verschlüsselungsschlüssel (CUSTOMER-Managed Encryption Key, CMK) wünschen, verwenden Sie einen separaten Prozess. Erfahren Sie mehr über den Microsoft Purview-Kundenschlüssel.

Data Quality Compute – Preise

Die Nutzung der Datenqualität wird basierend auf den nutzungsbasierten Zählern der Datengovernance-Verarbeitungseinheit (DATA Governance Processing Unit, DGPU) abgerechnet. Hier finden Sie Details zur Berechnung der Preise für die Datenqualität.

Begrenzungen

Virtuelle Netzwerke werden für Google Big Query noch nicht unterstützt.
Sie können maximal 200 Data Quality-Regeln pro Datenressource für eine Datenqualitätsüberprüfung anwenden. Hier erhalten Sie Details zu diesem Grenzwert und Problemumgehungen.

Nächste Schritte

Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, damit sie alle Data Quality-Features verwenden können.
Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle auf eine Datenqualitätsbewertung vorzubereiten.
Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-15