Teilen über


Assetnormalisierung

Beim Erfassen von Ressourcen in der Microsoft Purview-Datenzuordnung können verschiedene Quellen, die dieselbe Datenressource aktualisieren, ähnliche, aber leicht unterschiedliche qualifizierte Namen senden. Während diese qualifizierten Namen dasselbe Objekt darstellen, können geringfügige Unterschiede wie ein zusätzliches Zeichen dazu führen, dass diese Objekte auf der Oberfläche anders aussehen und doppelte Einträge in Microsoft Purview verursachen. Um das Speichern doppelter Einträge zu vermeiden und bei der Nutzung des Datenkatalogs zu verwechseln, wendet Microsoft Purview die Normalisierung während der Erfassung an, um sicherzustellen, dass alle vollqualifizierten Namen desselben Entitätstyps das gleiche Format aufweisen.

Beispielsweise scannen Sie ein Azure-Blob mit dem qualifizierten Namen https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet. Dieses Blob wird auch von einer Azure Data Factory-Pipeline genutzt, die dem Medienobjekt dann Herkunftsinformationen hinzugibt. Die ADF-Pipeline kann so konfiguriert werden, dass die Datei als https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquetgelesen wird. Obwohl sich der qualifizierte Name unterscheidet, verwendet diese ADF-Pipeline die gleichen Daten. Die Normalisierung stellt sicher, dass alle Metadaten aus Azure Blob Storage und Azure Data Factory auf einem einzelnen Medienobjekt sichtbar sind, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Wichtig

Die unten aufgeführten Regeln sind die einzigen Arten potenzieller Dupilierung, die Microsoft Purview derzeit erkennt. Wenn eine versehentliche Ressourcenduplizierung auftritt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Kaplitalisierungsunterschieden oder zusätzlichen Zeichen zu suchen. Aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.

Normalisierungsregeln

Im Folgenden finden Sie die von Microsoft Purview angewendeten Normalisierungsregeln.

Codieren von geschweiften Klammern

Gilt für: Alle Ressourcen

Bevor: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Nach: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Abschnittsräume kürzen

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Bevor: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Nach: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Entfernen von Hostnamenräumen

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Bevor: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Entfernen von eckigen Klammern

Gilt für: Azure SQL-Datenbank, Azure SQL Managed Instance, Azure SQL-Pool

Bevor: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Nach: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Hinweis

Leerzeichen zwischen zwei eckigen Klammern werden codiert.

Kleinbuchstabenschema

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Bevor: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Hostname in Kleinbuchstaben

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Bevor: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Dateierweiterung in Kleinbuchstaben

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Bevor: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Nach: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Doppelte Schrägstriche entfernen

Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Bevor: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Nach: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Konvertieren in ein ADL-Schema

Gilt für: Azure Data Lake Storage Gen1

Bevor: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Nach: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Entfernen des nachgestellten Schrägstrichs

Entfernen des nachgestellten Schrägstrichs aus übergeordneten Ressourcen für Azure Blob, ADLS Gen1 und ADLS Gen2

Gilt für: Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Objekttypen: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Bevor: https://myaccount.core.windows.net/

Nach: https://myaccount.core.windows.net

Nächste Schritte

Scannen Sie ein Azure Blob Storage-Konto in die Microsoft Purview-Datenzuordnung.