Microsoft Purview 中的資料譜系
本文提供Microsoft Purview 資料目錄中的資料譜系概觀。 它也會詳細說明資料系統如何與目錄整合,以擷取資料譜系。 Microsoft Purview 可以擷取組織資料資產不同部分的資料歷程,以及不同層級的準備,包括:
- 從各種平臺暫存的原始資料
- 已轉換和備妥的資料
- 視覺效果平臺使用的資料
使用案例
資料譜系被廣泛理解為跨越資料來源的生命週期,以及資料在資料資產中隨著時間移動的位置。 它用於不同類型的回溯案例,例如疑難排解、追蹤資料管線中的根本原因和偵錯。 譜系也用於資料品質分析、合規性和「假設」案例,通常稱為影響分析。 譜系會以視覺化方式呈現,以顯示從來源移至目的地的資料,包括資料的轉換方式。 由於大部分企業資料環境的複雜度,這些檢視可能很難瞭解,而不需進行一些周邊資料點的匯總或遮罩。
Microsoft Purview 資料目錄中的譜系體驗
Microsoft Purview 資料目錄會與其他資料處理、儲存體和分析系統連線,以擷取歷程資訊。 這些資訊會結合以代表目錄中一般、案例特定的譜系體驗。
您的資料資產可能包括執行資料擷取、轉換 (ETL/ELT 系統) 、分析和視覺效果系統的系統。 每個系統都會擷取豐富的靜態和操作中繼資料,以描述系統界限內資料的狀態和品質。 資料目錄中的譜系目標是盡可能從每個資料系統擷取移動、轉換和操作中繼資料。
下列範例是跨多個系統移動資料的典型使用案例,其中資料目錄會連線到每個系統以進行譜系。
- Data Factory 會將資料從內部部署/原始區域複製到雲端中的登陸區域。
- Synapse、Databricks 等資料處理系統會使用筆記本處理資料,並將資料從登陸區域轉換成策展區域。
- 將資料進一步處理到分析模型中,以獲得最佳的查詢效能和匯總。
- 資料視覺效果系統會取用資料集,並透過其中繼模型進行處理,以建立 BI 儀表板、ML 實驗等等。
譜系資料細微性
下一節涵蓋 Microsoft Purview 收集歷程資訊之資料細微性的詳細資料。 此資料細微性可能會根據 Microsoft Purview 中支援的資料系統而有所不同。
實體層級歷程:來源 (的) > 進程 > 目標 ()
- 譜系會以圖形表示,通常會包含由計算系統叫用之進程所連接之資料儲存系統中的來源和目標實體。
- 資料系統會連線到資料目錄,以產生並報告參考基礎資料系統實體物件的唯一物件,例如:SQL 預存程式、筆記本等等。
- 擷取具有擁有權等其他中繼資料的高逼真度譜系,以人類可讀取的格式顯示來源 & 目標實體的譜系。 例如:Hive 資料表層級的譜系,而不是資料分割或檔案層級。
資料行或屬性層級譜系
識別用來在目標實體中建立或衍生屬性 () 之來源實體的屬性 () 。 來源屬性的名稱可以在目標中保留或重新命名。 ADF 之類的系統可以執行從內部部署環境到雲端的一對一複本。 例如:Table1/ColumnA -> Table2/ColumnA
。
進程執行狀態
為了支援根本原因分析和資料品質案例,我們會擷取資料處理系統中作業的執行狀態。 此需求與取代其他資料處理系統的監視功能無關,目標都不是要取代它們。
摘要
譜系是Microsoft Purview 資料目錄的重要功能,可支援品質、信任和稽核案例。 資料目錄的目標是要建置強固的架構,讓您環境中的所有資料系統都能自然地連線和報告譜系。 一旦中繼資料可供使用,資料目錄就可以將資料系統所提供的中繼資料結合在一起,以支援資料控管使用案例。