Beim Erfassen von Ressourcen in der Microsoft Purview Data Map können unterschiedliche Quellen, die dieselbe Datenressource aktualisieren, ähnliche, aber leicht unterschiedliche qualifizierte Namen senden. Während diese qualifizierten Namen dasselbe Objekt darstellen, können geringfügige Unterschiede wie ein zusätzliches Zeichen dazu führen, dass diese Objekte auf der Oberfläche anders aussehen und doppelte Einträge in Microsoft Purview verursachen. Um das Speichern doppelter Einträge zu vermeiden und bei der Verwendung der Unified Catalog zu Verwechslungen zu führen, wendet Microsoft Purview automatisch die Normalisierung während der Erfassung an, um sicherzustellen, dass alle vollqualifizierten Namen desselben Entitätstyps das gleiche Format aufweisen.
Beispielsweise scannen Sie ein Azure-Blob mit dem qualifizierten Namen https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet. Dieses Blob wird auch von einer Azure Data Factory-Pipeline genutzt, die dem Medienobjekt dann Herkunftsinformationen hinzugibt. Die ADF-Pipeline (Azure Data Factory) kann so konfiguriert sein, dass die Datei als https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquetgelesen wird. Obwohl sich der qualifizierte Name unterscheidet, verwendet diese ADF-Pipeline die gleichen Daten. Die Normalisierung stellt sicher, dass alle Metadaten aus Azure Blob Storage und Azure Data Factory auf einem einzelnen Medienobjekt sichtbar sind, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.
Wichtig
Die unten aufgeführten Regeln sind die einzigen Arten potenzieller Duplikate, die Microsoft Purview derzeit erkennt. Wenn eine versehentliche Ressourcenduplizierung auftritt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Groß-/Kleinschreibungsunterschieden oder zusätzlichen Zeichen zu suchen. Aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.
Normalisierungsregeln
Dies sind die Normalisierungsregeln, die Von Microsoft Purview automatisch angewendet werden.
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Gilt für: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL Pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Wenn Ihre Daten nicht normalisiert werden und es zu einer versehentlichen Duplizierung von Ressourcen kommt, vergleichen Sie die vollqualifizierten Namen der Ressourcen, um nach Groß-/Kleinschreibungsunterschieden oder zusätzlichen Zeichen zu suchen.
Die oben aufgeführten Regeln sind die einzigen Arten von Duplizierungen, die Microsoft Purview derzeit erkennt. Wenn Ihre Daten außerhalb dieser Regeln fallen, aktualisieren Sie alle Erfassungspunkte, z. B. Ihre ADF-Pipelines, damit die qualifizierten Namen übereinstimmen.
Veranschaulichen der Grundlagen von Datensicherheit, Lebenszyklusverwaltung, Informationssicherheit und Compliance zum Schutz einer Microsoft 365-Bereitstellung