Ressourcennormalisierung

Artikel
24.12.2024

Beim Erfassen von Ressourcen in der Microsoft Purview Data Map können unterschiedliche Quellen, die dieselbe Datenressource aktualisieren, ähnliche, aber leicht unterschiedliche qualifizierte Namen senden. Während diese qualifizierten Namen dasselbe Objekt darstellen, können geringfügige Unterschiede wie ein zusätzliches Zeichen dazu führen, dass diese Objekte auf der Oberfläche anders aussehen und doppelte Einträge in Microsoft Purview verursachen. Um das Speichern doppelter Einträge zu vermeiden und bei der Verwendung der Unified Catalog zu Verwechslungen zu führen, wendet Microsoft Purview automatisch die Normalisierung während der Erfassung an, um sicherzustellen, dass alle vollqualifizierten Namen desselben Entitätstyps das gleiche Format aufweisen.

Beispielsweise scannen Sie ein Azure-Blob mit dem qualifizierten Namen https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet. Dieses Blob wird auch von einer Azure Data Factory-Pipeline genutzt, die dem Medienobjekt dann Herkunftsinformationen hinzugibt. Die ADF-Pipeline (Azure Data Factory) kann so konfiguriert sein, dass die Datei als https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquetgelesen wird. Obwohl sich der qualifizierte Name unterscheidet, verwendet diese ADF-Pipeline die gleichen Daten. Die Normalisierung stellt sicher, dass alle Metadaten aus Azure Blob Storage und Azure Data Factory auf einem einzelnen Medienobjekt sichtbar sind, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Wichtig

Die unten aufgeführten Regeln sind die einzigen Arten potenzieller Duplikate, die Microsoft Purview derzeit erkennt. Wenn eine versehentliche Ressourcenduplizierung auftritt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Groß-/Kleinschreibungsunterschieden oder zusätzlichen Zeichen zu suchen. Aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.

Normalisierungsregeln

Dies sind die Normalisierungsregeln, die Von Microsoft Purview automatisch angewendet werden.

Codieren von geschweiften Klammern

Gilt für: Alle Ressourcen

Vor: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Nach: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Abschnittsräume kürzen

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Vor: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Nach: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Entfernen von Hostnamenräumen

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Vor: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Entfernen von eckigen Klammern

Gilt für: Azure SQL-Datenbank, Azure SQL Managed Instance, Azure SQL-Pool

Vor: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Nach: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Hinweis

Leerzeichen zwischen zwei eckigen Klammern werden codiert.

Kleinbuchstabenschema

Vor: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Hostname in Kleinbuchstaben

Vor: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Dateierweiterung in Kleinbuchstaben

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Vor: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Nach: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Doppelte Schrägstriche entfernen

Vor: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Konvertieren in ein ADL-Schema

Gilt für: Azure Data Lake Storage Gen1

Vor: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Nach: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Entfernen des nachgestellten Schrägstrichs

Entfernen Sie den nachgestellten Schrägstrich aus übergeordneten Ressourcen für Azure Blob, ADLS Gen1 und ADLS Gen2.

Gilt für: Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Objekttypen: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Vor: https://myaccount.core.windows.net/

Nach: https://myaccount.core.windows.net

Problembehandlung

Wenn Ihre Daten nicht normalisiert werden und es zu einer versehentlichen Duplizierung von Ressourcen kommt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Groß-/Kleinschreibungsunterschieden oder zusätzlichen Zeichen zu suchen.

Die oben aufgeführten Regeln sind die einzigen Arten von Duplizierungen, die Microsoft Purview derzeit erkennt. Wenn Ihre Daten außerhalb dieser Regeln fallen, aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.

Wenn Ihre Ressourcen die Regeln erfüllen, aber nicht normalisiert werden, wenden Sie sich an den Support.

Nächste Schritte

Scannen Sie ein Azure Blob Storage-Konto in die Microsoft Purview-Datenzuordnung.

Teilen über

Ressourcennormalisierung

Normalisierungsregeln

Codieren von geschweiften Klammern

Abschnittsräume kürzen

Entfernen von Hostnamenräumen

Entfernen von eckigen Klammern

Kleinbuchstabenschema

Hostname in Kleinbuchstaben

Dateierweiterung in Kleinbuchstaben

Doppelte Schrägstriche entfernen

Konvertieren in ein ADL-Schema

Entfernen des nachgestellten Schrägstrichs

Problembehandlung

Nächste Schritte

Feedback

Zusätzliche Ressourcen