資產正規化
將資產內嵌到 Microsoft Purview 資料對應時,更新相同資料資產的不同來源可能會傳送類似但稍微不同的限定名稱。 雖然這些限定名稱代表相同的資產,但像是額外字元的些微差異可能會導致表面上的這些資產顯示不同,並導致 Microsoft Purview 中的專案重複。 為了避免儲存重複的專案,並在取用資料目錄時造成混淆,Microsoft Purview 會在擷取期間套用正規化,以確保相同實體類型的所有完整名稱都採用相同的格式。
例如,您在 Azure Blob 中使用限定名稱 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
進行掃描。 Azure Data Factory管線也會取用此 Blob,然後將歷程資訊新增至資產。 ADF 管線可設定為將檔案讀取為 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
。 雖然限定名稱不同,但此 ADF 管線會取用相同的資料片段。 正規化可確保來自 Azure Blob 儲存體 和 Azure Data Factory 的所有中繼資料都會顯示在單一資產 上。 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
重要事項
下列規則是 Microsoft Purview 目前唯一可辨識的潛在重複類型。 如果您遇到意外的資產重複,請比較資產完整名稱以檢查上限化差異或其他字元。 更新任何擷取點,例如您的 ADF 管線,讓限定名稱相符。
正規化規則
以下是 Microsoft Purview 所套用的正規化規則。
編碼大括弧
適用于:所有資產
之前: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
後: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
修剪區段空間
適用于:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL集區、Azure Cosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
之前: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
後: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
移除主機名稱空間
適用于:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
之前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
移除方括弧
適用于:Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區
之前: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
後: mssql://foo.database.windows.net/bar/dbo/foo%20bar
注意事項
兩個方括弧之間的空格將會編碼
小寫配置
適用于:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Amazon S3
之前: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小寫主機名稱
適用于:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Amazon S3
之前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小寫副檔名
適用于:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3
之前: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
後: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
移除重複的斜線
適用于:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL集區、Azure Cosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
之前: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
轉換為 ADL 配置
適用于:Azure Data Lake Storage Gen1
之前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
後: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
移除尾端斜線
針對 Azure Blob、ADLS Gen1 和 ADLS Gen2,從較高層級的資產中移除尾端斜線
適用于:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2
資產類型:「azure_blob_container」、「azure_blob_service」、「azure_storage_account」、「azure_datalake_gen2_service」、「azure_datalake_gen2_filesystem」、「azure_datalake_gen1_account」。
之前: https://myaccount.core.windows.net/
後: https://myaccount.core.windows.net
後續步驟
在 microsoft Purview 資料對應中掃描Azure Blob 儲存體帳戶。