瞭解資源集

本文可協助您瞭解 Microsoft Purview 如何使用資源集將資料資產對應至邏輯資源。

背景資訊

大規模資料處理系統通常會將單一資料表儲存在儲存體中作為多個檔案。 在Microsoft Purview 資料目錄中,此概念是使用資源集來表示。 資源集是目錄中的單一物件,代表儲存體中的大量資產。

例如,假設您的 Spark 叢集已將 DataFrame 保存到 Azure Data Lake Storage (ADLS) Gen2 資料來源。 雖然在 Spark 中,資料表看起來像是單一邏輯資源,但在磁片上可能會有數千個 Parquet 檔案,每個檔案都代表 DataFrame 總內容的分割區。 IoT 資料和 Web 記錄資料有相同的挑戰。 假設您有一個感應器,一秒輸出數次記錄檔。 直到您有數十萬個來自該單一感應器的記錄檔,才會花很長的時間。

Microsoft Purview 如何偵測資源集

Microsoft Purview 支援偵測 Azure Blob 儲存體、ADLS Gen1、ADLS Gen2、Azure 檔案儲存體 和 Amazon S3 中的資源集。

Microsoft Purview 會在掃描時自動偵測資源集。 這項功能會查看透過掃描擷取的所有資料,並將其與一組定義的模式進行比較。

例如,假設您掃描 URL 為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet 的資料來源。 Microsoft Purview 會查看路徑區段,並判斷它們是否符合任何內建模式。 其內建模式適用于 GUID、數位、日期格式、當地語系化程式碼 (例如 en-us) 等等。 在此情況下,數位模式符合 23。 Microsoft Purview 假設此檔案是名為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet 之資源集的一部分。

或者,針對之類的 https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json URL,Microsoft Purview 會比對當地語系化模式和數位模式,產生名為 的 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json 資源集。

使用此策略,Microsoft Purview 會將下列資源對應至相同的資源集 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Microsoft Purview 不會偵測為資源集的檔案類型

Microsoft Purview 刻意不會嘗試將大部分的檔檔案類型,例如Word、Excel 或 PDF 分類為資源集。 例外狀況是 CSV 格式,因為這是常見的分割檔案格式。

Microsoft Purview 如何掃描資源集

當 Microsoft Purview 偵測到它認為屬於資源集的資源時,它會從完整掃描切換至範例掃描。 範例掃描只會開啟它認為位於資源集中的檔案子集。 針對開啟的每個檔案,它會使用其架構並執行其分類器。 接著,Microsoft Purview 會在開啟的資源中尋找最新的資源,並在目錄中整個資源集的專案中使用該資源的架構和分類。

進階資源集

Microsoft Purview 可以透過進階資源集功能來自訂及進一步擴充您的 資源集 資產。 進階資源集可讓 Microsoft Purview 瞭解內嵌資料的基礎分割區,並可建立 資源集模式規則 ,以自訂 Microsoft Purview 在掃描期間群組資源集的方式。

啟用進階資源集時,Microsoft Purview 會執行額外的匯總,以計算下列資源集資產的相關資訊:

  • 組成資源集之檔案的範例路徑。
  • 顯示組成資源集之檔案數的分割區計數。
  • 組成資源集的所有檔案大小總計。

您可以在資源集的資產詳細資料頁面上找到這些屬性。

進階資源集開啟時計算的屬性

開啟進階資源集

在所有新的 Microsoft Purview 實例中,預設會關閉進階資源集。 您可以從管理中樞的 帳戶資訊 啟用進階資源集。 只有新增至根集合之資料編者角色的使用者,才能管理進階資源集設定。

開啟進階資源集。

啟用進階資源集之後,會在所有新擷取的資產上進行額外的擴充。 Microsoft Purview 小組建議在切換功能之後,先等候一小時,再掃描新的資料湖資料。

重要事項

啟用進階資源集會影響資產和分類深入解析的重新整理率。 開啟進階資源集時,資產和分類深入解析一天只會更新兩次。

內建資源集模式

Microsoft Purview 支援下列資源集模式。 這些模式可以顯示為目錄中的名稱或檔案名的一部分。

以 Regex 為基礎的模式

模式名稱 顯示名稱 描述
Guid {GUID} RFC 4122中定義的全域唯一識別碼
數字 {N} 一或多個數位
日期/時間格式 {Year}{Month}{Day}{N} 我們支援各種日期/時間格式,但所有格式都是以 {Year}[delimiter]{Month}[delimiter]{Day} 或一系列的 {N}s 表示。
4ByteHex {HEX} 4 位數的 HEX 數位。
當地語系化 {LOC} BCP 47中定義的語言標記 - 和 _ 名稱都受到支援 (例如,en_ca和 en-ca)

複雜模式

模式名稱 顯示名稱 描述
SparkPath {SparkPartitions} Spark 分割區檔案識別碼
日期 (yyyy/mm/dd) InPath {Year}/{Month}/{Day} 跨越多個資料夾的年/月/日模式

資源集在Microsoft Purview 資料目錄中的顯示方式

當 Microsoft Purview 將一組資產比對到資源集時,它會嘗試擷取最有用的資訊,以做為目錄中的顯示名稱。 已套用預設命名慣例的一些範例:

範例 1

限定名稱: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

顯示名稱:「Spark 輸出的名稱」

範例 2

限定名稱: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

顯示名稱:「我的資料分割資料」

範例 3

限定名稱: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

顯示名稱:「data」

使用模式規則自訂資源集群組

掃描儲存體帳戶時,Microsoft Purview 會使用一組定義的模式來判斷資產群組是否為資源集。 在某些情況下,Microsoft Purview 的資源集群組可能無法正確反映您的資料資產。 這些問題可能包括:

  • 不正確地將資產標示為資源集
  • 將資產放入錯誤的資源集
  • 不正確地將資產標示為不是資源集

若要自訂或覆寫 Microsoft Purview 偵測哪些資產群組為資源集的方式,以及它們在目錄中的顯示方式,您可以在管理中心定義模式規則。 如需逐步指示和語法,請參閱 資源集模式規則

資源集的已知限制

  • 根據預設,只有在啟用進階資源集時,掃描才會刪除 資源集 資產。 如果這項功能已關閉,則只能手動或透過 API 刪除資源集資產。

後續步驟

若要開始使用 Microsoft Purview,請 參閱快速入門:建立 Microsoft Purview 帳戶