Grundlegendes zu Ressourcensätzen

In diesem Artikel erfahren Sie, wie Microsoft Purview Ressourcensätze verwendet, um Datenressourcen logischen Ressourcen zuzuordnen.

Hintergrundinformationen

Datenverarbeitungssysteme im großen Stil speichern in der Regel eine einzelne Tabelle im Speicher als mehrere Dateien. Im Microsoft Purview Data Catalog wird dieses Konzept mithilfe von Ressourcensätzen dargestellt. Ein Ressourcensatz ist ein einzelnes Objekt im Katalog, das eine große Anzahl von Ressourcen im Speicher darstellt.

Angenommen, Ihr Spark-Cluster hat einen DataFrame in einer Azure Data Lake Storage Gen2-Datenquelle (ADLS) beibehalten. Obwohl die Tabelle in Spark wie eine einzelne logische Ressource aussieht, gibt es auf dem Datenträger wahrscheinlich Tausende von Parquet-Dateien, von denen jede eine Partition des gesamten DataFrame-Inhalts darstellt. IoT-Daten und Webprotokolldaten haben die gleiche Herausforderung. Angenommen, Sie verfügen über einen Sensor, der Protokolldateien mehrmals pro Sekunde ausgibt. Es dauert nicht lange, bis Sie hunderttausende Protokolldateien von diesem einzelnen Sensor haben.

So erkennt Microsoft Purview Ressourcensätze

Microsoft Purview unterstützt das Erkennen von Ressourcensätzen in Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files und Amazon S3.

Microsoft Purview erkennt beim Scannen automatisch Ressourcensätze. Dieses Feature untersucht alle Daten, die per Scan erfasst werden, und vergleicht sie mit einer Reihe von definierten Mustern.

Angenommen, Sie scannen eine Datenquelle, deren URL lautet https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet. Microsoft Purview untersucht die Pfadsegmente und ermittelt, ob sie mit integrierten Mustern übereinstimmen. Es verfügt über integrierte Muster für GUIDs, Zahlen, Datumsformate, Lokalisierungscodes (z. B. en-us) usw. In diesem Fall entspricht das Zahlenmuster 23. Microsoft Purview geht davon aus, dass diese Datei Teil einer Ressourcengruppe mit dem Namen https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquetist.

Oder für eine URL wie https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.jsongleicht Microsoft Purview sowohl das Lokalisierungsmuster als auch das Zahlenmuster ab und erzeugt einen Ressourcensatz mit dem Namen https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json.

Mit dieser Strategie würde Microsoft Purview die folgenden Ressourcen demselben Ressourcensatz zuordnen: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Dateitypen, die Von Microsoft Purview nicht als Ressourcensätze erkannt werden

Microsoft Purview versucht absichtlich nicht, die meisten Dokumentdateitypen wie Word, Excel oder PDF als Ressourcensätze zu klassifizieren. Die Ausnahme ist das CSV-Format, da es sich um ein gängiges partitioniertes Dateiformat handelt.

So überprüft Microsoft Purview Ressourcensätze

Wenn Microsoft Purview Ressourcen erkennt, die seiner Meinung nach Teil eines Ressourcensatzes sind, wechselt es von einer vollständigen Überprüfung zu einem Beispielscan. Bei einer Beispielüberprüfung wird nur eine Teilmenge der Dateien geöffnet, von denen angenommen wird, dass sie sich im Ressourcensatz befinden. Für jede datei, die geöffnet wird, verwendet sie ihr Schema und führt ihre Klassifizierer aus. Microsoft Purview sucht dann die neueste Ressource unter den geöffneten Ressourcen und verwendet das Schema und die Klassifizierungen dieser Ressource im Eintrag für den gesamten Ressourcensatz im Katalog.

Erweiterte Ressourcensätze

Microsoft Purview kann Ihre Ressourcengruppenressourcen über die Funktion Erweiterte Ressourcensätze anpassen und weiter anreichern. Erweiterte Ressourcensätze ermöglichen Es Microsoft Purview, die zugrunde liegenden Partitionen der erfassten Daten zu verstehen, und ermöglichen die Erstellung von Ressourcensatzmusterregeln , die anpassen, wie Microsoft Purview Ressourcensätze während der Überprüfung gruppiert.

Wenn erweiterte Ressourcensätze aktiviert sind, führt Microsoft Purview zusätzliche Aggregationen aus, um die folgenden Informationen zu Ressourcensatzressourcen zu berechnen:

  • Ein Beispielpfad aus einer Datei, die den Ressourcensatz enthält.
  • Eine Partitionsanzahl, die angibt, aus wie vielen Dateien der Ressourcensatz besteht.
  • Die Gesamtgröße aller Dateien, aus denen der Ressourcensatz besteht.

Diese Eigenschaften finden Sie auf der Ressourcendetailseite des Ressourcensatzes.

Die Eigenschaften, die berechnet werden, wenn erweiterte Ressourcensätze aktiviert sind

Aktivieren erweiterter Ressourcensätze

Erweiterte Ressourcensätze sind in allen neuen Microsoft Purview-Instanzen standardmäßig deaktiviert. Erweiterte Ressourcensätze können über Kontoinformationen im Verwaltungshub aktiviert werden. Nur Benutzer, die der Rolle "Datenkurator" in der Stammsammlung hinzugefügt wurden, können erweiterte Ressourcensätze-Einstellungen verwalten.

Aktivieren Sie Erweiterter Ressourcensatz.

Nach dem Aktivieren erweiterter Ressourcensätze erfolgen die zusätzlichen Anreicherungen für alle neu erfassten Ressourcen. Das Microsoft Purview-Team empfiehlt, nach dem Umschalten des Features eine Stunde zu warten, bevor neue Data Lake-Daten gescannt werden.

Wichtig

Das Aktivieren erweiterter Ressourcensätze wirkt sich auf die Aktualisierungsrate von Ressourcen und Klassifizierungserkenntnissen aus. Wenn erweiterte Ressourcensätze aktiviert sind, werden Ressourcen- und Klassifizierungserkenntnisse nur zweimal täglich aktualisiert.

Integrierte Ressourcensatzmuster

Microsoft Purview unterstützt die folgenden Ressourcensatzmuster. Diese Muster können als Name in einem Verzeichnis oder als Teil eines Dateinamens angezeigt werden.

RegEx-basierte Muster

Mustername Anzeigename Beschreibung
GUID {GUID} Ein global eindeutiger Bezeichner gemäß RFC 4122
Zahl {N} Mindestens eine Ziffer
Datums-/Uhrzeitformate {Year} {Month} {Day} {N} Wir unterstützen verschiedene Datums-/Uhrzeitformate, aber alle werden mit {Year}[Trennzeichen]{Monat}[Trennzeichen]{Tag} oder einer Reihe von {N}s dargestellt.
4ByteHex {HEX} Eine vierstellige HEX-Nummer.
Lokalisierung {LOC} Ein In BCP 47 definiertes Sprachtag, sowohl -- als auch _-Namen werden unterstützt (z. B. en_ca und en-ca).

Komplexe Muster

Mustername Anzeigename Beschreibung
SparkPath {SparkPartitions} Bezeichner der Spark-Partitionsdatei
Date(yyyy/mm/tt)InPath {Year}/{Month}/{Day} Muster "Jahr/Monat/Tag", das sich über mehrere Ordner erstreckt

Anzeige von Ressourcensätzen im Microsoft Purview Data Catalog

Wenn Microsoft Purview eine Gruppe von Ressourcen einem Ressourcensatz zuordnet, wird versucht, die nützlichsten Informationen zu extrahieren, die als Anzeigename im Katalog verwendet werden können. Einige Beispiele für die angewendete Standardbenennungskonvention:

Beispiel 1

Qualifizierter Name: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

Anzeigename: "Name der Spark-Ausgabe"

Beispiel 2

Qualifizierter Name: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

Anzeigename: "Meine partitionierten Daten"

Beispiel 3

Qualifizierter Name: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

Anzeigename: "data"

Anpassen der Ressourcensatzgruppierung mithilfe von Musterregeln

Beim Überprüfen eines Speicherkontos verwendet Microsoft Purview eine Reihe definierter Muster, um zu bestimmen, ob eine Gruppe von Ressourcen eine Ressourcengruppe ist. In einigen Fällen spiegelt die Ressourcensatzgruppierung von Microsoft Purview Ihren Datenbestand möglicherweise nicht genau wider. Diese Probleme können folgendes umfassen:

  • Falsches Markieren eines Medienobjekts als Ressourcensatz
  • Einfügen einer Ressource in den falschen Ressourcensatz
  • Falsches Markieren eines Medienobjekts als nicht als Ressourcensatz

Um anzupassen oder außer Kraft zu setzen, wie Microsoft Purview erkennt, welche Ressourcen als Ressourcensätze gruppiert sind und wie sie im Katalog angezeigt werden, können Sie Musterregeln im Verwaltungscenter definieren. Schritt-für-Schritt-Anweisungen und Syntax finden Sie unter Ressourcensatzmusterregeln.

Bekannte Einschränkungen bei Ressourcensätzen

  • Ressourcensatzressourcen werden standardmäßig nur bei einer Überprüfung gelöscht, wenn erweiterte Ressourcensätze aktiviert sind. Wenn diese Funktion deaktiviert ist, können Ressourcensatzressourcen nur manuell oder über die API gelöscht werden.

Nächste Schritte

Informationen zu den ersten Schritten mit Microsoft Purview finden Sie unter Schnellstart: Erstellen eines Microsoft Purview-Kontos.