閱讀英文

共用方式為


了解資源集

本文可協助您瞭解 Microsoft Purview 如何使用資源集將數據資產對應至邏輯資源。

重要

這項功能僅適用於現有的進階資源集客戶。 這不適用於 Microsoft Purview 的新客戶。

背景資訊

大規模數據處理系統通常會將單一數據表儲存在記憶體中作為多個檔案。 在 Microsoft Purview 資料目錄 中,此概念是使用資源集來表示。 資源集是目錄中的單一物件,代表記憶體中的大量資產。

例如,假設您的 Spark 叢集已將 DataFrame 保存到 Azure Data Lake Storage (ADLS) Gen2 數據源。 雖然在Spark中,數據表看起來像是單一邏輯資源,但在磁碟上可能會有數千個 Parquet 檔案,每個檔案都代表DataFrame總內容的分割區。 IoT 資料和 Web 記錄數據有相同的挑戰。 假設您有一個感測器,一秒輸出數次記錄檔。 直到您有數十萬個來自該單一感測器的記錄檔,才會花很長的時間。

Microsoft Purview 如何偵測資源集

Microsoft Purview 支援偵測 Azure Blob 儲存體、ADLS Gen1、ADLS Gen2、Azure 檔案儲存體 和 Amazon S3 中的資源集。

Microsoft Purview 會在掃描時自動偵測資源集。 這項功能會查看透過掃描擷取的所有數據,並將其與一組定義的模式進行比較。

例如,假設您掃描 URL 為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet的數據源。 Microsoft Purview 會查看路徑區段,並判斷它們是否符合任何內建模式。 其內建模式適用於 GUID、數位、日期格式、當地語系化程式代碼 (例如 en-us) 等等。 在此情況下,數位模式符合 23。 Microsoft Purview 假設此檔案是名為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet之資源集的一部分。

或者,針對之類的 https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.jsonURL,Microsoft Purview 會同時符合當地語系化模式和數位模式,產生名為的 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json資源集。

使用此策略,Microsoft Purview 會將下列資源對應至相同的資源集: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Microsoft Purview 不會偵測為資源集的文件類型

Microsoft Purview 不會刻意嘗試將大部分的文件檔類型分類,例如 Word、Excel 或 PDF 為資源集。 例外狀況是 CSV 格式,因為這是常見的分割檔格式。

Microsoft Purview 如何掃描資源集

當 Microsoft Purview 偵測到它認為屬於資源集的資源時,它會從完整掃描切換為範例掃描。 範例掃描只會開啟它認為位於資源集中的檔案子集。 針對開啟的每個檔案,它會使用其架構並執行其分類器。 Microsoft Purview 接著會在開啟的資源中尋找最新的資源,並在目錄中整個資源集的專案中使用該資源的架構和分類。

進階資源集

Microsoft Purview 可以透過進階資源集功能來自定義及進一步擴充您的 資源集 資產。 進階資源集可讓 Microsoft Purview 瞭解內嵌數據的基礎分割區,並可建立 資源集模式規則 ,以自定義在掃描期間Microsoft Purview 群組資源集的方式。

啟用進階資源集時,Microsoft Purview 會執行額外的匯總,以計算資源集資產的下列相關信息:

  • 組成資源集之檔案的範例路徑。
  • 顯示組成資源集之檔案數的分割區計數。
  • 組成資源集的所有檔案大小總計。

您可以在資源集的資產詳細數據頁面上找到這些屬性。

進階資源集開啟時計算的屬性

開啟進階資源集

在所有新的 Microsoft Purview 實例中,預設會關閉進階資源集。 您可以從管理中樞的 帳戶資訊 啟用進階資源集。 只有新增至根集合之數據編者角色的使用者,才能管理進階資源集設定。

開啟進階資源集。

啟用進階資源集之後,會在所有新擷取的資產上進行額外的擴充。 在擷取之後,這些擴充最多可能需要 12小時 才能在您的資產上使用。 Microsoft Purview 小組建議在切換功能之後,先等候一小時,再掃描新的數據湖數據。

重要

啟用進階資源集會影響資產和分類深入解析的重新整理率。 開啟進階資源集時,資產和分類深入解析一天只會更新兩次。

此外,當您啟用進階資源集時,最多可能需要 12 小時 才能查看架構更新。

內建資源集模式

Microsoft Purview 支援下列資源集模式。 這些模式可以顯示為目錄中的名稱或檔名的一部分。

以 Regex 為基礎的模式

模式名稱 顯示名稱 描述
Guid {GUID} RFC 4122 中定義的全域唯一標識碼
數字 {N} 一或多個數位
日期/時間格式 {Year}{Month}{Day}{N} 我們支持各種日期/時間格式,但所有格式都是以 {Year}[delimiter]{Month}[delimiter]{Day} 或一系列的 {N}s 表示。
4ByteHex {HEX} 4 位數的 HEX 數位。
當地語系化 {LOC} BCP 47 中定義的語言標記 - 和 _ 名稱都受到支援 (例如,en_ca和 en-ca)

複雜模式

模式名稱 顯示名稱 描述
SparkPath {SparkPartitions} Spark 分割區檔案標識碼
日期 (yyyy/mm/dd) InPath {Year}/{Month}/{Day} 跨越多個資料夾的年/月/日模式

資源集在 Microsoft Purview 資料目錄 中的顯示方式

當 Microsoft Purview 將一組資產比對到資源集時,它會嘗試擷取最有使用的資訊,以做為目錄中的顯示名稱。 已套用預設命名慣例的一些範例:

範例 1

限定名稱: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

顯示名稱:「Spark 輸出的名稱」

範例 2

限定名稱: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

顯示名稱:「我的數據分割數據」

範例 3

限定名稱: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

顯示名稱:“data”

使用模式規則自定義資源集群組

掃描記憶體帳戶時,Microsoft Purview 會使用一組定義的模式來判斷資產群組是否為資源集。 在某些情況下,Microsoft Purview 的資源集群組可能不會正確反映您的數據資產。 這些問題可能包括:

  • 不正確地將資產標示為資源集
  • 將資產放入錯誤的資源集
  • 不正確地將資產標示為不是資源集

若要自定義或覆寫 Microsoft Purview 如何偵測哪些資產群組為資源集,以及它們在目錄中的顯示方式,您可以在管理中心定義模式規則。 如需逐步指示和語法,請參閱 資源集模式規則

資源集的已知限制

  • 根據預設,只有在啟用進階資源集時,掃描才會刪除 資源集 資產。 如果這項功能已關閉,則只能手動或透過 API 刪除資源集資產。

後續步驟

若要開始使用 Microsoft Purview,請參閱 快速入門:建立 Microsoft Purview 帳戶