资产规范化
将资产引入 Microsoft Purview 数据映射时,更新同一数据资产的不同源可能会发送类似但略有不同的限定名称。 虽然这些限定名称表示相同的资产,但细微的差异(如额外的字符)可能会导致这些资产在表面上显示不同,并导致 Microsoft Purview 中的重复条目。 为了避免存储重复条目并在使用数据目录时造成混淆,Microsoft Purview 在引入期间应用规范化,以确保同一实体类型的所有完全限定名称采用相同的格式。
例如,在 Azure Blob 中使用限定名称 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
进行扫描。 此 Blob 也由Azure 数据工厂管道使用,该管道随后会将世系信息添加到资产。 可将 ADF 管道配置为将文件读取为 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
。 虽然限定名称不同,但此 ADF 管道使用同一段数据。 规范化可确保Azure Blob 存储和Azure 数据工厂中的所有元数据在单个资产https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
上可见。
重要
下面列出的规则是 Microsoft Purview 目前唯一识别的潜在重复类型。 如果遇到意外的资产重复,请将资产完全限定的名称与检查进行比较,了解上限差异或其他字符。 更新任何引入点,例如 ADF 管道,以便限定名称匹配。
规范化规则
下面是 Microsoft Purview 应用的规范化规则。
对大括号进行编码
适用于:所有资产
之前: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
后: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
剪裁分区空间
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL Database、Azure SQL 托管实例、Azure SQLpool, Azure Cosmos DB, Azure 认知搜索, Azure 数据资源管理器, Azure Data Share, Amazon S3
之前: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
后: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
删除主机名空间
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure Data Share、Amazon S3
之前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
删除方括号
适用于:Azure SQL数据库、Azure SQL 托管实例Azure SQL池
之前: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
后: mssql://foo.database.windows.net/bar/dbo/foo%20bar
注意
将编码两个方括号之间的空格
小写方案
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3
之前: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小写主机名
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3
之前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小写文件扩展名
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3
之前: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
后: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
删除重复的斜杠
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL Database、Azure SQL 托管实例、Azure SQLpool, Azure Cosmos DB, Azure 认知搜索, Azure 数据资源管理器, Azure Data Share, Amazon S3
之前: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
转换为 ADL 方案
适用于:Azure Data Lake Storage Gen1
之前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
后: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
删除尾部斜杠
从 Azure Blob、ADLS Gen1 和 ADLS Gen2 的更高级别资产中删除尾部斜杠
适用于:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2
资产类型:“azure_blob_container”、“azure_blob_service”、“azure_storage_account”、“azure_datalake_gen2_service”、“azure_datalake_gen2_filesystem”、“azure_datalake_gen1_account”。
之前: https://myaccount.core.windows.net/
后: https://myaccount.core.windows.net
后续步骤
在 Azure Blob 存储 帐户中扫描到 Microsoft Purview 数据映射中。