资产规范化

将资产引入 Microsoft Purview 数据映射时,更新同一数据资产的不同源可能会发送类似但略有不同的限定名称。 虽然这些限定名称表示相同的资产,但细微的差异(如额外的字符)可能会导致这些资产在表面上显示不同,并导致 Microsoft Purview 中的重复条目。 为了避免存储重复条目并在使用数据目录时造成混淆,Microsoft Purview 在引入期间应用规范化,以确保同一实体类型的所有完全限定名称采用相同的格式。

例如,在 Azure Blob 中使用限定名称 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet进行扫描。 此 Blob 也由Azure 数据工厂管道使用,该管道随后会将世系信息添加到资产。 可将 ADF 管道配置为将文件读取为 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet。 虽然限定名称不同,但此 ADF 管道使用同一段数据。 规范化可确保Azure Blob 存储和Azure 数据工厂中的所有元数据在单个资产https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet上可见。

重要

下面列出的规则是 Microsoft Purview 目前唯一识别的潜在重复类型。 如果遇到意外的资产重复,请将资产完全限定的名称与检查进行比较,了解上限差异或其他字符。 更新任何引入点,例如 ADF 管道,以便限定名称匹配。

规范化规则

下面是 Microsoft Purview 应用的规范化规则。

对大括号进行编码

适用于:所有资产

之前: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

后: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

剪裁分区空间

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL Database、Azure SQL 托管实例、Azure SQLpool, Azure Cosmos DB, Azure 认知搜索, Azure 数据资源管理器, Azure Data Share, Amazon S3

之前: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

后: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

删除主机名空间

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure Data Share、Amazon S3

之前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

删除方括号

适用于:Azure SQL数据库、Azure SQL 托管实例Azure SQL池

之前: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

后: mssql://foo.database.windows.net/bar/dbo/foo%20bar

注意

将编码两个方括号之间的空格

小写方案

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3

之前: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小写主机名

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3

之前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小写文件扩展名

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3

之前: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

后: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

删除重复的斜杠

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL Database、Azure SQL 托管实例、Azure SQLpool, Azure Cosmos DB, Azure 认知搜索, Azure 数据资源管理器, Azure Data Share, Amazon S3

之前: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

转换为 ADL 方案

适用于:Azure Data Lake Storage Gen1

之前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

后: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

删除尾部斜杠

从 Azure Blob、ADLS Gen1 和 ADLS Gen2 的更高级别资产中删除尾部斜杠

适用于:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2

资产类型:“azure_blob_container”、“azure_blob_service”、“azure_storage_account”、“azure_datalake_gen2_service”、“azure_datalake_gen2_filesystem”、“azure_datalake_gen1_account”。

之前: https://myaccount.core.windows.net/

后: https://myaccount.core.windows.net

后续步骤

在 Azure Blob 存储 帐户中扫描到 Microsoft Purview 数据映射中。