Bewährte Methoden für die Microsoft Purview-Überprüfung
Microsoft Purview-Governancelösungen unterstützen die automatisierte Überprüfung von lokalen, Multicloud- und SaaS-Datenquellen (Software-as-a-Service).
Beim Ausführen einer Überprüfung wird der Prozess aufgerufen, um Metadaten aus den registrierten Datenquellen zu erfassen. Die metadaten, die am Ende des Überprüfungs- und Zusammenstellungsprozesses zusammengestellt wurden, enthalten technische Metadaten. Diese Metadaten können Namen von Datenressourcen wie Tabellennamen oder Dateinamen, Dateigröße, Spalten und Datenherkunft enthalten. Schemadetails werden auch für strukturierte Datenquellen erfasst. Ein Managementsystem für relationale Datenbanken ist ein Beispiel für diese Art von Quelle.
Der Zusammenstellungsprozess wendet automatisierte Klassifizierungsbezeichnungen auf die Schemaattribute basierend auf dem konfigurierten Überprüfungsregelsatz an. Vertraulichkeitsbezeichnungen werden angewendet, wenn Ihr Microsoft Purview-Konto mit dem Microsoft Purview-Complianceportal verbunden ist.
Wichtig
Wenn Azure-RichtlinienUpdates für Speicherkonten verhindern, führt dies zu Fehlern beim Überprüfungsprozess von Microsoft Purview. Befolgen Sie die Anleitung zu Microsoft Purview-Ausnahmetags , um eine Ausnahme für Microsoft Purview-Konten zu erstellen.
Warum benötigen Sie bewährte Methoden zum Verwalten von Datenquellen?
Bewährte Methoden ermöglichen Folgendes:
- Optimieren Sie die Kosten.
- Erstellen Sie erstklassige Betriebsabläufe.
- Verbessern der Sicherheitskonformität.
- Leistungseffizienz erzielen.
Registrieren einer Quelle und Herstellen einer Verbindung
Die folgenden Entwurfsüberlegungen und -empfehlungen helfen Ihnen beim Registrieren einer Quelle und beim Herstellen einer Verbindung.
Überlegungen zum Entwurf
- Verwenden Sie Sammlungen, um die Hierarchie zu erstellen, die der Strategie des organization entspricht, z. B. geografische, Geschäftsfunktion oder Datenquelle. Die Hierarchie definiert die Zu registrierenden und zu überprüfenden Datenquellen.
- Standardmäßig können Sie Datenquellen nicht mehrmals im selben Microsoft Purview-Konto registrieren. Diese Architektur trägt dazu bei, das Risiko zu vermeiden, der gleichen Datenquelle unterschiedliche Zugriffssteuerungen zuzuweisen.
Entwurfsempfehlungen
Wenn die Metadaten derselben Datenquelle von mehreren Teams genutzt werden, können Sie die Datenquelle in einer übergeordneten Sammlung registrieren und verwalten. Anschließend können Sie unter jeder Untersammlung entsprechende Scans erstellen. Auf diese Weise werden relevante Ressourcen unter jeder untergeordneten Sammlung angezeigt. Quellen ohne übergeordnete Elemente werden in einem gepunkteten Feld in der Kartenansicht gruppiert. Keine Pfeile verknüpfen sie mit übergeordneten Elementen.
Verwenden Sie die Option Azure Multiple , wenn Sie mehrere Quellen, z. B. Azure-Abonnements oder Ressourcengruppen, in der Cloud registrieren müssen. Weitere Informationen finden Sie in der folgenden Dokumentation:
Nachdem eine Datenquelle registriert wurde, können Sie dieselbe Quelle mehrmals überprüfen, falls dieselbe Quelle von verschiedenen Teams oder Geschäftseinheiten unterschiedlich verwendet wird.
Weitere Informationen zum Definieren einer Hierarchie zum Registrieren von Datenquellen finden Sie unter Bewährte Methoden für die Sammlungsarchitektur.
Analyse
Die folgenden Entwurfsüberlegungen und Empfehlungen sind basierend auf den wichtigsten Schritten des Überprüfungsprozesses organisiert.
Überlegungen zum Entwurf
- Richten Sie nach der Registrierung der Datenquelle eine Überprüfung ein, um die automatisierte und sichere Überprüfung und Zusammenstellung von Metadaten zu verwalten.
- Das Scan-Setup umfasst die Konfiguration des Namens der Überprüfung, des Überprüfungsbereichs, der Integration Runtime, der Häufigkeit des Scantriggers, des Überprüfungsregelsatzes und der Ressourcengruppe, die für jede Datenquelle pro Scanhäufigkeit eindeutig festgelegt werden.
- Bevor Sie Anmeldeinformationen erstellen, sollten Sie Ihre Datenquellentypen und Netzwerkanforderungen berücksichtigen. Diese Informationen helfen Ihnen bei der Entscheidung, welche Authentifizierungsmethode und Integration Runtime Sie für Ihr Szenario benötigen.
Entwurfsempfehlungen
Nachdem Sie Ihre Quelle in der relevanten Sammlung registriert haben, planen und befolgen Sie die hier gezeigte Reihenfolge, wenn Sie den Scan einrichten. Diese Prozessreihenfolge hilft Ihnen, unerwartete Kosten und Nacharbeit zu vermeiden.
Identifizieren Sie Ihre Klassifizierungsanforderungen anhand der systeminternen Klassifizierungsregeln. Alternativ können Sie bei Bedarf bestimmte benutzerdefinierte Klassifizierungsregeln erstellen. Basieren Sie auf bestimmten branchen-, geschäftlichen oder regionalen Anforderungen, die nicht sofort verfügbar sind:
- Weitere Informationen finden Sie in den bewährten Methoden für die Klassifizierung.
- Erfahren Sie, wie Sie eine benutzerdefinierte Klassifizierungs- und Klassifizierungsregel erstellen.
Erstellen Sie Überprüfungsregelsätze, bevor Sie die Überprüfung konfigurieren.
Stellen Sie beim Erstellen des Überprüfungsregelsatzes die folgenden Punkte sicher:
Überprüfen Sie, ob der Standardregelsatz für die Überprüfung des Systems für die zu überprüfende Datenquelle ausreicht. Definieren Sie andernfalls Ihren benutzerdefinierten Überprüfungsregelsatz.
Der benutzerdefinierte Überprüfungsregelsatz kann sowohl Systemstandard als auch benutzerdefinierte enthalten. Deaktivieren Sie daher die Optionen, die für die gescannten Datenassets nicht relevant sind.
Erstellen Sie bei Bedarf einen benutzerdefinierten Regelsatz, um unerwünschte Klassifizierungsbezeichnungen auszuschließen. Der Systemregelsatz enthält beispielsweise generische Regierungscodemuster für den Planeten, nicht nur die USA. Ihre Daten entsprechen möglicherweise dem Muster eines anderen Typs, z. B. "Belgische Führerscheinnummer".
Beschränken Sie benutzerdefinierte Klassifizierungsregeln auf die wichtigsten und relevanten Bezeichnungen , um Unübersichtlichkeit zu vermeiden. Sie möchten nicht, dass zu viele Bezeichnungen für das Medienobjekt gekennzeichnet sind.
Wenn Sie den benutzerdefinierten Klassifizierungs- oder Überprüfungsregelsatz ändern, wird eine vollständige Überprüfung ausgelöst. Konfigurieren Sie den Klassifizierungs- und Überprüfungsregelsatz entsprechend, um Nacharbeiten und kostspielige vollständige Überprüfungen zu vermeiden.
Hinweis
Wenn Sie ein Speicherkonto überprüfen, verwendet Microsoft Purview eine Reihe definierter Muster, um zu bestimmen, ob eine Gruppe von Ressourcen einen Ressourcensatz bildet. Sie können Ressourcensatzmusterregeln verwenden, um anzupassen oder außer Kraft zu setzen, wie Microsoft Purview erkennt, welche Ressourcen als Ressourcensätze gruppiert werden. Die Regeln bestimmen auch, wie die Ressourcen innerhalb des Katalogs angezeigt werden. Weitere Informationen finden Sie unter Erstellen von Ressourcensatzmusterregeln. Für dieses Feature gelten Überlegungen zu den Kosten. Weitere Informationen finden Sie auf der Preisseite.
Richten Sie eine Überprüfung für die registrierten Datenquellen ein.
Scanname: Standardmäßig verwendet Microsoft Purview die Namenskonvention SCAN-[A-Z][a-z][a-z][a-z], was nicht hilfreich ist, wenn Sie versuchen, eine von Ihnen ausgeführte Überprüfung zu identifizieren. Achten Sie darauf, eine sinnvolle Namenskonvention zu verwenden. Für instance können Sie die Überprüfungsumgebung-Quelle-Häufigkeit-Zeit als DEVODS-Daily-0200 benennen. Dieser Name steht für eine tägliche Überprüfung bei 0200 Stunden.
Authentifizierung: Microsoft Purview bietet je nach Quelltyp verschiedene Authentifizierungsmethoden zum Überprüfen von Datenquellen. Es kann sich um Azure-Cloud- oder lokale Oder Drittanbieterquellen sein. Befolgen Sie das Prinzip der geringsten Rechte für die Authentifizierungsmethode in dieser bevorzugten Reihenfolge:
- Microsoft Purview MSI – Verwaltete Dienstidentität (z. B. für Azure Data Lake Storage Gen2 Quellen)
- Benutzerseitig zugewiesene verwaltete Identität
- Dienstprinzipal
- SQL-Authentifizierung (z. B. für lokale oder Azure SQL Quellen)
- Kontoschlüssel oder Standardauthentifizierung (z. B. für SAP S/4HANA-Quellen)
Weitere Informationen finden Sie in der Anleitung zum Verwalten von Anmeldeinformationen.
Hinweis
Wenn Sie eine Firewall für das Speicherkonto aktiviert haben, müssen Sie die Authentifizierungsmethode für verwaltete Identitäten verwenden, wenn Sie eine Überprüfung einrichten. Wenn Sie neue Anmeldeinformationen einrichten, darf der Anmeldeinformationsname nur Buchstaben, Zahlen, Unterstriche und Bindestriche enthalten.
Integration Runtime
- Weitere Informationen finden Sie unter Bewährte Methoden für die Netzwerkarchitektur.
- Wenn die selbstgehostete Integration Runtime (SHIR) gelöscht wird, schlagen alle laufenden Überprüfungen, die darauf basieren, fehl.
- Wenn Sie SHIR verwenden, stellen Sie sicher, dass der Arbeitsspeicher für die zu scannende Datenquelle ausreicht. Wenn Sie z. B. SHIR zum Überprüfen einer SAP-Quelle verwenden, wird der Fehler "Nicht genügend Arbeitsspeicher" angezeigt:
- Stellen Sie sicher, dass der SHIR-Computer über genügend Arbeitsspeicher verfügt. Die empfohlene Menge beträgt 128 GB.
- Legen Sie in der Scaneinstellung den maximal verfügbaren Arbeitsspeicher als geeigneten Wert fest, z. B. 100.
- Weitere Informationen finden Sie unter Voraussetzungen unter Überprüfen und Verwalten von SAP ECC Microsoft Purview.
Bereichsüberprüfung
Wenn Sie den Bereich für die Überprüfung einrichten, wählen Sie nur die Ressourcen aus, die auf einer granularen oder übergeordneten Ebene relevant sind. Dadurch wird sichergestellt, dass die Scankosten optimal sind und die Leistung effizient ist. Alle zukünftigen Ressourcen unter einem bestimmten übergeordneten Element werden automatisch ausgewählt, wenn das übergeordnete Element vollständig oder teilweise überprüft wird.
Einige Beispiele für einige Datenquellen:
- Für Azure SQL Datenbank oder Data Lake Storage Gen2 können Sie die Überprüfung auf bestimmte Teile der Datenquelle festlegen. Wählen Sie die entsprechenden Elemente in der Liste aus, z. B. Ordner, Unterordner, Sammlungen oder Schemas.
- Für Oracle-, Hive-Metastore-Datenbank- und Teradata-Quellen kann mithilfe von SQL LIKE-Ausdrücken eine bestimmte Liste der zu exportierenden Schemas über durch Semikolons getrennte Werte oder Schemanamensmuster angegeben werden.
- Bei Google Big-Abfragen kann eine bestimmte Liste der zu exportierenden Datasets durch durch Semikolons getrennte Werte angegeben werden.
- Wenn Sie eine Überprüfung für ein gesamtes AWS-Konto erstellen, können Sie bestimmte Buckets auswählen, die überprüft werden sollen. Wenn Sie eine Überprüfung für einen bestimmten AWS S3-Bucket erstellen, können Sie bestimmte Ordner auswählen, die überprüft werden sollen.
- Für Erwin können Sie Den Scanbereich festlegen, indem Sie eine durch Semikolons getrennte Liste von Erwin-Modelllocatorzeichenfolgen bereitstellen.
- Für Cassandra kann eine bestimmte Liste der zu exportierenden Schlüsselräume über durch Semikolons getrennte Werte oder mithilfe von SQL LIKE-Ausdrücken durch Schlüsselzeichennamensmuster angegeben werden.
- Für Looker können Sie Den Scanbereich festlegen, indem Sie eine durch Semikolons getrennte Liste von Looker-Projekten bereitstellen.
- Für den Power BI-Mandanten können Sie nur angeben, ob ein persönlicher Arbeitsbereich eingeschlossen oder ausgeschlossen werden soll.
Verwenden Sie im Allgemeinen "Muster ignorieren", wo sie unterstützt werden, basierend auf Wildcards (z. B. für Data Lakes), um temporäre, Konfigurationsdateien, RDBMS-Systemtabellen oder Sicherungs- oder STG-Tabellen auszuschließen.
Wenn Sie Dokumente oder unstrukturierte Daten scannen, vermeiden Sie das Scannen einer großen Anzahl solcher Dokumente. Die Überprüfung verarbeitet die ersten 20 MB solcher Dokumente und kann zu einer längeren Überprüfungsdauer führen.
Regelsatz überprüfen
- Wenn Sie den Überprüfungsregelsatz auswählen, stellen Sie sicher, dass Sie das relevante System oder den benutzerdefinierten Überprüfungsregelsatz konfigurieren, der zuvor erstellt wurde.
- Sie können benutzerdefinierte Dateitypen erstellen und die Details entsprechend eingeben. Derzeit unterstützt Microsoft Purview nur ein Zeichen im benutzerdefinierten Trennzeichen. Wenn Sie benutzerdefinierte Trennzeichen wie ~in Ihren tatsächlichen Daten verwenden, müssen Sie einen neuen Überprüfungsregelsatz erstellen.
Scantyp und Zeitplan
- Der Überprüfungsprozess kann so konfiguriert werden, dass vollständige oder inkrementelle Überprüfungen ausgeführt werden.
- Führen Sie die Überprüfungen außerhalb des Geschäftsbetriebs oder außerhalb der Spitzenzeiten aus, um eine Verarbeitungsüberlastung der Quelle zu vermeiden.
- Die Wiederholung bei muss mindestens eine Minute kürzer sein als die geplante Überprüfungszeit, andernfalls wird die Überprüfung in der nächsten Wiederholung ausgelöst.
- Die anfängliche Überprüfung ist eine vollständige Überprüfung, und jede nachfolgende Überprüfung ist inkrementell. Nachfolgende Überprüfungen können als regelmäßige inkrementelle Überprüfungen geplant werden.
- Die Häufigkeit der Überprüfungen sollte mit dem Änderungsverwaltungszeitplan der Datenquelle oder den Geschäftsanforderungen übereinstimmen. Zum Beispiel:
- Wenn sich die Quellstruktur möglicherweise wöchentlich ändern kann, sollte die Überprüfungshäufigkeit synchron sein. Änderungen umfassen neue Ressourcen oder Felder innerhalb eines Medienobjekts, die hinzugefügt, geändert oder gelöscht werden.
- Wenn die Klassifizierungs- oder Vertraulichkeitsbezeichnungen wöchentlich auf dem neuesten Stand sind, z. B. aus regulatorischen Gründen, sollte die Überprüfungshäufigkeit wöchentlich sein. Wenn partitionsdateien beispielsweise jede Woche in einem Quell-Data Lake hinzugefügt werden, können Sie monatliche Überprüfungen planen. Sie müssen keine wöchentlichen Überprüfungen planen, da sich die Metadaten nicht ändern. Bei diesem Vorschlag wird davon ausgegangen, dass es keine neuen Klassifizierungsszenarien gibt.
- Wenn Sie die Ausführung einer Überprüfung am selben Tag planen, an dem sie erstellt wird, muss die Startzeit mindestens eine Minute vor der Überprüfungszeit betragen.
- Die maximale Dauer, die die Überprüfung ausführen kann, beträgt sieben Tage, möglicherweise aufgrund von Speicherproblemen. Dieser Zeitraum schließt den Erfassungsprozess aus. Wenn der Fortschritt nach sieben Tagen nicht aktualisiert wurde, wird die Überprüfung als fehlgeschlagen markiert. Für den Erfassungsprozess (im Katalog) gibt es derzeit keine solche Einschränkung.
Abbrechen von Überprüfungen
- Derzeit können Scans nur abgebrochen oder angehalten werden, wenn die status der Überprüfung nach dem Auslösen der Überprüfung von "In der Warteschlange" in den Status "In Bearbeitung" übergegangen ist.
- Das Abbrechen einer einzelnen untergeordneten Überprüfung wird nicht unterstützt.
Hinweise zur Notiz
- Wenn ein Feld, eine Spalte, eine Tabelle oder eine Datei aus dem Quellsystem entfernt wird, nachdem die Überprüfung ausgeführt wurde, wird sie erst nach der nächsten geplanten vollständigen oder inkrementellen Überprüfung in Microsoft Purview widergespiegelt (entfernt).
- Ein Medienobjekt kann aus einem Microsoft Purview-Katalog gelöscht werden, indem das Symbol Löschen unter dem Namen des Medienobjekts verwendet wird. Durch diese Aktion wird das Objekt in der Quelle nicht entfernt. Wenn Sie eine vollständige Überprüfung für dieselbe Quelle ausführen, wird sie im Katalog erneut erfasst. Wenn Sie stattdessen eine wöchentliche oder monatliche Überprüfung geplant haben (inkrementell), wird das gelöschte Medienobjekt nur dann ausgewählt, wenn das Objekt an der Quelle geändert wird. Ein Beispiel ist, wenn der Tabelle eine Spalte hinzugefügt oder daraus entfernt wird.
- Informationen zum Verhalten nachfolgender Überprüfungen nach der manuellen Bearbeitung einer Datenressource oder eines zugrunde liegenden Schemas über das Microsoft Purview-Governanceportal finden Sie unter Katalogobjektdetails.
- Weitere Informationen finden Sie im Tutorial zum Anzeigen, Bearbeiten und Löschen von Ressourcen.