Scans und Erfassung in Microsoft Purview
Dieser Artikel bietet eine Übersicht über die Scan- und Erfassungsfeatures in Microsoft Purview. Diese Features verbinden Ihr Microsoft Purview-Konto mit Ihren Quellen, um die Datenzuordnung und den Datenkatalog aufzufüllen, sodass Sie mit der Untersuchung und Verwaltung Ihrer Daten über Microsoft Purview beginnen können.
- Bei der Überprüfung werden Metadaten aus Datenquellen erfasst und in Microsoft Purview bereitgestellt.
-
Die Erfassung verarbeitet Metadaten und speichert sie im Datenkatalog aus beiden:
- Datenquellenscans: Gescannte Metadaten werden dem Microsoft Purview Data Map hinzugefügt.
- Herkunftsverbindungen: Transformationsressourcen fügen Metadaten zu ihren Quellen, Ausgaben und Aktivitäten zum Microsoft Purview Data Map hinzu.
Analyse
Nachdem Datenquellen in Ihrem Microsoft Purview-Konto registriert wurden, besteht der nächste Schritt darin, die Datenquellen zu überprüfen. Der Überprüfungsprozess stellt eine Verbindung mit der Datenquelle her und erfasst technische Metadaten wie Namen, Dateigröße, Spalten usw. Außerdem werden Schemas für strukturierte Datenquellen extrahiert, Klassifizierungen auf Schemas angewendet und Vertraulichkeitsbezeichnungen angewendet, wenn Ihr Microsoft Purview Data Map mit einem Microsoft Purview-Complianceportal verbunden ist. Der Überprüfungsprozess kann so ausgelöst werden, dass er sofort ausgeführt wird oder regelmäßig ausgeführt werden kann, um Ihr Microsoft Purview-Konto auf dem neuesten Stand zu halten.
Für jede Überprüfung gibt es Anpassungen, die Sie anwenden können, sodass Sie nur die benötigten Informationen und nicht die gesamte Quelle überprüfen.
Auswählen einer Authentifizierungsmethode für Ihre Überprüfungen
Microsoft Purview ist standardmäßig sicher. Kennwörter oder Geheimnisse werden nicht direkt in Microsoft Purview gespeichert, sodass Sie eine Authentifizierungsmethode für Ihre Quellen auswählen müssen. Es gibt mehrere Möglichkeiten zum Authentifizieren Ihres Microsoft Purview-Kontos, aber nicht alle Methoden werden für jede Datenquelle unterstützt.
- Verwaltete Identität
- Dienstprinzipal
- SQL-Authentifizierung
- Windows-Authentifizierung
- Rollen-ARN
- Delegierte Authentifizierung
- Consumerschlüssel
- Kontoschlüssel oder Standardauthentifizierung
Nach Möglichkeit ist eine verwaltete Identität die bevorzugte Authentifizierungsmethode, da dadurch das Speichern und Verwalten von Anmeldeinformationen für einzelne Datenquellen entfällt. Dies kann die Zeit, die Sie und Ihr Team für die Einrichtung und Problembehandlung der Authentifizierung für Überprüfungen aufwenden, erheblich reduzieren. Wenn Sie eine verwaltete Identität für Ihr Microsoft Purview-Konto aktivieren, wird eine Identität in Azure Active Directory erstellt und an den Lebenszyklus Ihres Kontos gebunden.
Festlegen des Scanbereichs
Beim Scannen einer Quelle können Sie die gesamte Datenquelle überprüfen oder nur bestimmte Entitäten (Ordner/Tabellen) zum Scannen auswählen. Die verfügbaren Optionen hängen von der Quelle ab, die Sie überprüfen, und sie können sowohl für einmalige als auch für geplante Überprüfungen definiert werden.
Wenn Sie beispielsweise eine Überprüfung für eine Azure SQL Datenbank erstellen und ausführen, können Sie auswählen, welche Tabellen überprüft werden sollen, oder die gesamte Datenbank auswählen.
Für jede Entität (Ordner/Tabelle) gibt es drei Auswahlzustände: vollständig ausgewählt, teilweise ausgewählt und nicht ausgewählt. Wenn Sie im folgenden Beispiel in der Ordnerhierarchie "Abteilung 1" auswählen, gilt "Abteilung 1" als vollständig ausgewählt. Die übergeordneten Entitäten für "Abteilung 1" wie "Unternehmen" und "Beispiel" werden als teilweise ausgewählt betrachtet, da andere Entitäten unter demselben übergeordneten Element nicht ausgewählt wurden, z. B. "Abteilung 2". Verschiedene Symbole werden auf der Benutzeroberfläche für Entitäten mit unterschiedlichen Auswahlzuständen verwendet.
Nach dem Ausführen der Überprüfung werden wahrscheinlich neue Ressourcen im Quellsystem hinzugefügt. Standardmäßig werden die zukünftigen Ressourcen unter einem bestimmten übergeordneten Element automatisch ausgewählt, wenn das übergeordnete Element vollständig oder teilweise ausgewählt ist, wenn Sie die Überprüfung erneut ausführen. Nachdem Sie im obigen Beispiel "Abteilung 1" ausgewählt und die Überprüfung ausgeführt haben, werden alle neuen Ressourcen im Ordner "Abteilung 1" oder unter "Unternehmen" und "Beispiel" eingeschlossen, wenn Sie die Überprüfung erneut ausführen.
Es wird eine Umschaltfläche für Benutzer eingeführt, um die automatische Aufnahme für neue Ressourcen unter teilweise ausgewähltem übergeordnetem Element zu steuern. Standardmäßig wird der Umschalter deaktiviert, und das automatische Einschlussverhalten für teilweise ausgewählte übergeordnete Elemente ist deaktiviert. Im selben Beispiel, bei dem die Umschaltfläche deaktiviert ist, werden alle neuen Ressourcen unter teilweise ausgewählten übergeordneten Elementen wie "Unternehmen" und "Beispiel" nicht einbezogen, wenn Sie die Überprüfung erneut ausführen. In der zukünftigen Überprüfung werden nur neue Ressourcen unter "Abteilung 1" einbezogen.
Wenn die Umschaltfläche aktiviert ist, werden die neuen Ressourcen unter einem bestimmten übergeordneten Element automatisch ausgewählt, wenn das übergeordnete Element vollständig oder teilweise ausgewählt ist, wenn Sie die Überprüfung erneut ausführen. Das Einschlussverhalten ist dasselbe wie vor der Einführung der Umschaltfläche.
Hinweis
- Die Verfügbarkeit der Umschaltfläche hängt vom Datenquellentyp ab. Derzeit ist es in der öffentlichen Vorschau für Quellen verfügbar, einschließlich Azure Blob Storage, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files und Azure Dedicated SQL-Pool (ehemals SQL DW).
- Für alle Überprüfungen, die vor der Einführung der Umschaltfläche erstellt oder geplant wurden, wird der Umschaltzustand auf On festgelegt und kann nicht geändert werden. Bei überprüfungen, die erstellt oder geplant wurden, nachdem die Umschaltfläche eingeführt wurde, kann der Umschaltzustand nach dem Speichern der Überprüfung nicht geändert werden. Sie müssen eine neue Überprüfung erstellen, um den Umschaltzustand zu ändern.
- Wenn die Umschaltfläche deaktiviert ist, kann es für Quellen mit Speichertyp wie Azure Data Lake Storage Gen 2 bis zu 4 Stunden dauern, bis das Durchsuchen nach Quelltyp nach Abschluss des Scanauftrags vollständig verfügbar ist.
Bekannte Einschränkungen
Wenn die Umschaltfläche deaktiviert ist:
- Die Dateientitäten unter einem teilweise ausgewählten übergeordneten Element werden nicht überprüft.
- Wenn alle vorhandenen Entitäten unter einem übergeordneten Element explizit ausgewählt werden, wird das übergeordnete Element als vollständig ausgewählt betrachtet, und alle neuen Ressourcen unter dem übergeordneten Element werden einbezogen, wenn Sie die Überprüfung erneut ausführen.
Regelsatz überprüfen
Ein Überprüfungsregelsatz bestimmt die Arten von Informationen, nach denen eine Überprüfung sucht, wenn sie für eine Ihrer Quellen ausgeführt wird. Die verfügbaren Regeln hängen von der Art der Quelle ab, die Sie überprüfen, enthalten jedoch Elemente wie die Dateitypen , die Sie überprüfen sollten, und die Arten von Klassifizierungen , die Sie benötigen.
Es gibt bereits Systemscanregelsätze für viele Datenquellentypen, aber Sie können auch eigene Scanregelsätze erstellen, um Ihre Überprüfungen an Ihre organization anzupassen.
Planen der Überprüfung
Microsoft Purview bietet Ihnen die Wahl zwischen wöchentlichen oder monatlichen Überprüfungen zu einem von Ihnen gewählten Zeitpunkt. Wöchentliche Überprüfungen können für Datenquellen mit Strukturen geeignet sein, die sich aktiv in der Entwicklung befinden oder sich häufig ändern. Die monatliche Überprüfung eignet sich besser für Datenquellen, die sich selten ändern. Die bewährte Methode besteht darin, mit dem Administrator der Quelle zusammenzuarbeiten, die Sie überprüfen möchten, um einen Zeitpunkt zu identifizieren, zu dem die Computeanforderungen für die Quelle gering sind.
So erkennen Überprüfungen gelöschte Ressourcen
Ein Microsoft Purview-Katalog erkennt den Zustand eines Datenspeichers nur, wenn er eine Überprüfung ausführt. Damit der Katalog weiß, ob eine Datei, Tabelle oder ein Container gelöscht wurde, vergleicht er die letzte Scanausgabe mit der aktuellen Scanausgabe. Angenommen, beim letzten Scannen eines Azure Data Lake Storage Gen2 Kontos wurde ein Ordner namens folder1 enthalten. Wenn dasselbe Konto erneut gescannt wird, fehlt folder1 . Daher geht der Katalog davon aus, dass der Ordner gelöscht wurde.
Erkennen gelöschter Dateien
Die Logik zum Erkennen fehlender Dateien funktioniert für mehrere Überprüfungen durch denselben Benutzer und durch verschiedene Benutzer. Angenommen, ein Benutzer führt eine einmalige Überprüfung für einen Data Lake Storage Gen2 Datenspeicher in den Ordnern A, B und C aus. Später führt ein anderer Benutzer im selben Konto eine andere einmalige Überprüfung für die Ordner C, D und E desselben Datenspeichers aus. Da Ordner C zweimal überprüft wurde, überprüft der Katalog ihn auf mögliche Löschungen. Die Ordner A, B, D und E wurden jedoch nur einmal überprüft, und der Katalog überprüft sie nicht auf gelöschte Ressourcen.
Um gelöschte Dateien aus Ihrem Katalog zu entfernen, ist es wichtig, regelmäßige Überprüfungen durchzuführen. Das Überprüfungsintervall ist wichtig, da der Katalog gelöschte Ressourcen erst erkennen kann, wenn eine andere Überprüfung ausgeführt wird. Wenn Sie also einmal pro Monat Überprüfungen für einen bestimmten Speicher ausführen, kann der Katalog keine gelöschten Datenressourcen in diesem Speicher erkennen, bis Sie die nächste Überprüfung einen Monat später ausführen.
Wenn Sie große Datenspeicher wie Data Lake Storage Gen2 auflisten, gibt es mehrere Möglichkeiten (einschließlich Enumerationsfehlern und verworfenen Ereignissen), Um Informationen zu verpassen. Bei einer bestimmten Überprüfung kann es vorkommen, dass eine Datei erstellt oder gelöscht wurde. Es sei denn, der Katalog ist sicher, dass eine Datei gelöscht wurde, wird sie nicht aus dem Katalog gelöscht. Diese Strategie bedeutet, dass Fehler auftreten können, wenn eine Datei, die nicht im gescannten Datenspeicher vorhanden ist, noch im Katalog vorhanden ist. In einigen Fällen muss ein Datenspeicher möglicherweise zwei- oder dreimal überprüft werden, bevor er bestimmte gelöschte Ressourcen abfängt.
Hinweis
- Objekte, die zum Löschen markiert sind, werden nach einer erfolgreichen Überprüfung gelöscht. Gelöschte Ressourcen sind möglicherweise noch einige Zeit in Ihrem Katalog sichtbar, bevor sie verarbeitet und entfernt werden.
- Derzeit wird die Erkennung von Quellenlöschungen für die folgenden Quellen nicht unterstützt: Azure Databricks, Amazon Redshift, Cassandra, DB2, Erwin, Google BigQuery, Hive Metastore, Looker, MongoDB, MySQL, Oracle, PostgreSQL, Salesforce, SAP BW, SAP ECC, SAP HANA, SAP S/4HANA, Snowflake und Teradata. Wenn das Objekt aus der Datenquelle gelöscht wird, wird bei der nachfolgenden Überprüfung nicht automatisch das entsprechende Objekt in Microsoft Purview entfernt.
Einnahme
Die Erfassung ist der Prozess, der für das Auffüllen der Data Map mit Metadaten verantwortlich ist, die über die verschiedenen Prozesse gesammelt wurden.
Erfassung aus Überprüfungen
Die durch den Scanvorgang identifizierten technischen Metadaten oder Klassifizierungen werden dann an die Erfassung gesendet. Die Erfassung analysiert die Eingaben aus dem Scan, wendet Ressourcensatzmuster an, füllt verfügbare Herkunftsinformationen auf und lädt dann die Datenzuordnung automatisch. Objekte/Schemas können erst nach Abschluss der Erfassung ermittelt oder zusammengestellt werden. Wenn Ihre Überprüfung abgeschlossen ist, Sie ihre Ressourcen jedoch nicht in der Datenzuordnung oder im Katalog gesehen haben, müssen Sie warten, bis der Erfassungsprozess abgeschlossen ist.
Erfassung aus Herkunftsverbindungen
Ressourcen wie Azure Data Factory und Azure Synapse können mit Microsoft Purview verbunden werden, um Datenquellen- und Herkunftsinformationen in Ihre Microsoft Purview Data Map. Wenn beispielsweise eine Kopierpipeline in einer Azure Data Factory ausgeführt wird, die mit Microsoft Purview verbunden wurde, werden Metadaten zu den Eingabequellen, der Aktivität und den Ausgabequellen in Microsoft Purview erfasst, und die Informationen werden der Data Map hinzugefügt.
Wenn der Data Map bereits über einen Scan eine Datenquelle hinzugefügt wurde, werden der vorhandenen Quelle Herkunftsinformationen zur Aktivität hinzugefügt. Wenn die Datenquelle der Datenzuordnung noch nicht hinzugefügt wurde, fügt der Datenherkunftserfassungsprozess sie der Stammsammlung mit ihren Herkunftsinformationen hinzu.
Weitere Informationen zu den verfügbaren Herkunftsverbindungen finden Sie im Benutzerhandbuch zur Herkunft.
Nächste Schritte
Weitere Informationen oder spezifische Anweisungen zum Überprüfen von Quellen finden Sie unter den folgenden Links.
- Informationen zu Ressourcensätzen finden Sie in unserem Artikel zu Ressourcensätzen.
- Steuern einer Azure SQL-Datenbank
- Herkunft in Microsoft Purview