本文幫助你了解資源集在 Microsoft Purview 中如何被用來將資料資產映射到邏輯資源。
重要事項
請造訪 訊息中心 ,了解計畫中的功能和可用性更新。
背景資訊
大規模的資料處理系統通常將單一資料表儲存為多個檔案。 在 Microsoft Purview 整合式目錄中,這個概念是以資源集來表示的。 資源集是目錄中代表大量儲存資產的單一物件。
舉例來說,假設你的 Spark 叢集已經將一個 DataFrame 持續存在到 Azure Data Lake Storage (ADLS) Gen2 資料來源中。 雖然在 Spark 中,表格看起來像是一個邏輯資源,但在磁碟上可能有數千個 Parquet 檔案,每個檔案代表整個 DataFrame 內容的分割區。 物聯網資料和網路日誌資料面臨同樣的挑戰。 想像你有一個感測器,每秒會輸出多次日誌檔案。 不久你就會從那個感測器獲得數十萬個日誌檔案。
Microsoft Purview 如何偵測資源集
Microsoft Purview 支援偵測 Azure Blob 儲存體、ADLS Gen1、ADLS Gen2、Azure 檔案儲存體和 Amazon S3 中的資源集。
Microsoft Purview 在掃描時會自動偵測資源集。 此功能會檢視掃描所接收的所有資料,並將其與一組定義的模式進行比較。
舉例來說,假設你掃描一個 URL 為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet的資料來源。 Microsoft Purview 會檢視路徑區段,判斷它們是否符合任何內建模式。 它內建了 GUID、數字、日期格式、本地化碼 (例如、en-us) 等模式。 在這種情況下,數字模式與 23相符。 Microsoft Purview 假設此檔案屬於名為 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet. 的資源集。
或者,對於像 https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json這樣的 URL,Microsoft Purview 會同時匹配本地化模式與數字模式,產生一個名為 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json的資源集。
透過此策略,Microsoft Purview 會將以下資源映射至同一資源集: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.jsonhttps://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Microsoft Purview 無法偵測為資源集的檔案類型
Microsoft Purview 刻意不嘗試將大多數文件檔案類型如 Word、Excel 或 PDF 分類為資源集。 例外是 CSV 格式,因為那是常見的分割檔案格式。
Microsoft Purview 如何掃描資源集
當 Microsoft Purview 偵測到它認為屬於某一資源集的資源時,會從完整掃描切換到樣本掃描。 樣本掃描只會開啟它認為屬於資源集中的部分檔案。 它開啟的每個檔案都會使用結構並執行分類器。 Microsoft Purview 接著會從已開啟的資源中找到最新的資源,並在目錄中整個資源集的條目中使用該資源的結構與分類。
進階資源集
Microsoft Purview 可以透過 進階資源集 功能,客製化並進一步豐富您的資源集資產。 進階資源集讓 Microsoft Purview 能理解所接收資料的底層分割,並能建立 資源集模式規則 ,以自訂 Microsoft Purview 在掃描時如何分組資源集。
啟用進階資源集時,Microsoft Purview 會執行額外的彙整,以計算以下資源集資產的資訊:
- 來自包含資源集的檔案的範例路徑。
- 一個分割區計數,顯示資源集中有多少檔案。
- 構成資源集的所有檔案總大小。
這些屬性可在資源集的資產詳情頁面找到。
開啟進階資源集
所有新的 Microsoft Purview 實例預設關閉進階資源集。 可從管理中心的 帳戶資訊 啟用進階資源集。 只有在根集合時被加入資料策展人角色的使用者,才能管理進階資源集的設定。
啟用進階資源集後,所有新吸收的資產都會進行額外的豐富化。 這些增強劑在攝取後可能需要長達 12小時 才能在你的資產上恢復。 Microsoft Purview 團隊建議在開啟此功能後,等一小時再掃描新的資料湖資料。
重要事項
啟用進階資源集會影響資產與分類洞察的刷新率。 當進階資源集開啟時,資產與分類洞察每日更新兩次。
另外,當你啟用進階資源集時,看到結構更新可能需要長達 12 小時 。
內建資源集模式
Microsoft Purview 支援以下資源集模式。 這些模式可以以目錄中的名稱或檔案名稱的形式出現。
基於正則表達式的模式
| 圖案名稱 | 顯示名稱 | 描述 |
|---|---|---|
| Guid | {GUID} | RFC 4122 中定義的全球唯一識別碼 |
| 數字 | {N} | 一個或多個數字 |
| 日期/時間格式 | {年份}{月份}{Day}{N} | 我們支援各種日期/時間格式,但所有格式皆以 {Year}[分隔符]{Month}[分隔符]{Day} 或一系列 {N} 表示。 |
| 4ByteHex | {HEX} | 一個四位數的HEX編號。 |
| 當地語系化 | {LOC} | BCP 47 定義的語言標籤,支援 - 與 _ 名稱 (例如en_ca 和 en-ca) |
複雜模式
| 圖案名稱 | 顯示名稱 | 描述 |
|---|---|---|
| 火花之路 | {火花分割區} | Spark 分割區檔案識別碼 |
| 日期 (yyyy/mm/dd) InPath | {年}/{月}/{日} | 跨越多個資料夾的年份/月份/日期模式 |
資源集在整合式目錄中如何顯示
當 Microsoft Purview 將一組資產配對成資源集時,會嘗試擷取最有用的資訊作為目錄中的顯示名稱。 以下是一些預設命名慣例的範例:
範例 1
合格名稱: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
顯示名稱:「火花輸出名稱」
範例 2
合格名稱: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
顯示名稱:「我的分割資料」
範例 3
合格名稱: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
顯示名稱:「data」
使用模式規則自訂資源集分組
在掃描儲存帳戶時,Microsoft Purview 會使用一組定義好的模式來判斷一組資產是否屬於資源集。 在某些情況下,Microsoft Purview 的資源集分組可能無法準確反映您的資料資產。 這些問題可能包括:
- 錯誤地將資產標記為資源集。
- 把資產放錯資源集。
- 錯誤地標記資產不是資源集。
若要自訂或覆蓋 Microsoft Purview 如何偵測哪些資產被分組為資源集,以及它們在目錄中的顯示方式,你可以在管理中心定義模式規則。 關於逐步指令與語法,請參見 資源集模式規則。
資源集已知的限制
- 預設情況下,只有啟用 進階資源集 時,掃描才會刪除資源集資產。 若此功能關閉,資源集資產只能手動或透過 API 刪除。
後續步驟
欲開始使用 Microsoft Purview,請參閱快速入門:建立 Microsoft Purview 帳號。