分享方式:


Microsoft Purview 資料目錄 譜系使用者指南

本文提供 Microsoft Purview 資料目錄 中數據譜系功能的概觀。

Background

Microsoft Purview 的其中一個平臺功能是能夠顯示數據處理程式所建立之數據集之間的譜系。 Data Factory、Data Share 和 Power BI 等系統會在數據移動時擷取數據譜系。 透過 Atlas 勾點和 REST API 也支援自定義譜系報告。

譜系集合

從企業數據系統Microsoft Purview 中收集的元數據會拼接在一起,以顯示端對端數據譜系。 將譜系收集到 Microsoft Purview 的數據系統大致上分類為下列三種類型:

每個系統都支援不同層級的譜系範圍。 請檢查下列各節或您系統的個別譜系文章,以確認目前可用的譜系範圍。

已知限制

  • 作為處理活動來源的資料庫檢視 (Azure Data Factory、Synapse Pipelines、Azure SQL Database、Azure Data Share) 目前會擷取為 Microsoft Purview 中的資料庫數據表物件。 如果同時掃描資料庫,則會在 Purview 中個別探索檢視資產Microsoft。 在此案例中,Microsoft Purview 中擷取了兩個名稱相同的資產,一個是數據譜系的數據表,另一個則是檢視。
  • 如果預存程式包含 drop 或 create 語句,則目前不會在譜系中擷取這些語句。

數據處理系統

數據整合和 ETL 工具可以在運行時間將譜系推送至 Microsoft Purview。 Data Factory、Data Share、Synapse、Azure Databricks 等工具屬於此類數據處理系統。 數據處理系統會參考數據集作為來自不同資料庫和記憶體解決方案的來源,以建立目標數據集。 下表列出目前與 Microsoft Purview for lineage 整合的數據處理系統清單。

數據處理系統 支援的範圍
氣流 氣流譜系
Azure Data Share 共用快照集
Azure Data Factory 複製活動
數據流活動
執行 SSIS 套件活動
Azure SQL 資料庫 (預覽) 預存程式執行的譜系擷取
Azure Synapse Analytics 複製活動
數據流活動

數據儲存系統

資料庫 & 記憶體解決方案,例如 Oracle、Teradata 和 SAP,都有查詢引擎可使用腳本語言來轉換數據。 來自檢視/預存程式/等的數據譜系資訊會收集到 Microsoft Purview 中,並與其他系統的譜系結合。 下列數據源透過 Microsoft Purview 資料掃描支援譜系。 從個別的文章深入瞭解支援的譜系案例。

類別 資料來源
Azure Azure Databricks
Database Cassandra
Db2
Google BigQuery
蜂巢中繼存放區資料庫
MySQL
Oracle
PostgreSQL
Snowflake
Teradata
服務和應用程式 Erwin
Looker
SAP ECC
SAP S/4HANA

數據分析和報告系統

Azure Machine Learning 和 Power BI 報表譜系等數據分析和報告系統會進入 Microsoft Purview。 這些系統會使用儲存系統中的數據集,並透過其中繼模型來建立BI儀錶板、ML實驗等等。

數據分析 & 報表系統 支援的範圍
Power BI 數據集、數據流、報表 & 儀錶板

開始使用譜系

Microsoft Purview 中的譜系包含數據集和進程。 數據集也稱為節點,而進程也可以稱為邊緣:

  • 數據集 (節點) :數據集 (結構化或非結構化) 做為進程的輸入。 例如,SQL 數據表、Azure Blob 和 .csv 和 .xml) 等 (檔案都會被視為數據集。 在 Microsoft Purview 的歷程區段中,數據集會以矩形方塊表示。

  • 處理 (Edge) :在數據集上執行的活動或轉換稱為進程。 例如,ADF 複製活動、Data Share 快照集等等。 在 Microsoft Purview 的歷程區段中,進程會以四捨五入方塊表示。

若要存取 Purview 中資產Microsoft歷程資訊,請遵循下列步驟:

  1. 開啟 Microsoft Purview 治理入口網站,方法如下:

  2. 在 [Microsoft Purview 治理入口網站 頁上,搜尋數據集名稱或進程名稱,例如 ADF 複製或數據流活動。 然後按 Enter。

  3. 從搜尋結果中選取資產,然後選取其 [譜系] 索引標籤

    顯示如何選取 [譜系] 索引卷標的螢幕快照。

資產層級譜系

Microsoft Purview 支援數據集和進程的資產層級譜系。 若要查看資產層級譜系,請移至目錄中目前資產的 [ 譜系 ] 索引標籤。 選取目前的數據集資產節點。 根據預設,屬於數據的數據行清單會出現在左窗格中。

顯示如何在歷程頁面中選取 [檢視數據行] 的螢幕快照。

手動譜系

針對內部部署、多重雲端和 SaaS 環境中的許多資產,Microsoft Purview 中的數據譜系會 自動化 。 雖然我們繼續新增更多自動化來源,但手動譜系可讓您記錄尚未支援自動化之來源的譜系元數據,而不需要使用任何程序代碼。

若要為任何資產新增手動譜系,請遵循下列步驟:

  1. 在數據目錄中搜尋您的資產, 並加以選取以檢視詳細數據。

  2. 選取 [編輯],流覽至 [ 譜系] 索引 卷標,然後選取底部面板中的 [ 新增手動譜系 ]。

    編輯資產和新增手動譜系的螢幕快照。

  3. 若要設定資產譜系:

    1. 選取 [資產] 下拉式清單,從建議的清單中尋找資產,或選 取 [檢視更多 ] 以搜尋完整目錄。 選取您想要連結的資產。
    2. 選取交換圖示,將關聯性方向設定為 產生 下游歷程) 的 (,或 用上游歷程) 的 (。
    3. 如果您想要刪除譜系,請選取垃圾桶圖示。

    數據資產歷程頁面的螢幕快照,其中已醒目提示資產下拉式清單。

  4. 當您在兩個數據資產之間新增譜系時,可以另外設定數據行層級譜系。 選取資料列開頭的展開圖示,從對應的下拉式清單中選取上游和下游數據行,以設定數據行對應。 選取加號圖示以新增更多數據行譜系;選取垃圾桶圖示以刪除現有的垃圾桶圖示。

    設定數據行層級譜系的螢幕快照。

  5. 您可以再次選取 [ 新增手動譜系 ] 按鈕,以新增更多資產層級譜系。 當您完成時,請選取 [ 儲存 ] 按鈕以儲存譜系並結束編輯模式。

手動譜系的已知限制

  • 目前的資產選擇器體驗允許一次只選取一個資產。
  • 兩個數據資產之間的譜系目前支持數據行層級手動譜系,而在兩者之間涉及處理資產時則不支援。
  • 來源和目標資產都需要數據策劃存取。
  • 這些資產類型目前不允許手動譜系,因為它們支援自動化譜系:
    • Azure Data Factory
    • Synapse 管線
    • Power BI 數據集
    • Teradata 預存程式
    • Azure SQL 預存程式

數據集數據行譜系

若要查看數據集的數據行層級譜系,請移至目錄中目前資產的 [ 譜系 ] 索引標籤,並遵循下列步驟:

  1. 一旦您位於 [譜系] 索引卷標中,請在左窗格中選取您想要在數據譜系中顯示之每個數據行旁邊的複選框。

    顯示如何選取要在歷程頁面中顯示之數據行的螢幕快照。

  2. 將滑鼠停留在左窗格或歷程畫布數據集的選取數據行上方,以查看數據行對應。 所有數據行實例都會反白顯示。

    顯示如何將滑鼠停留在數據行名稱上方以醒目提示數據譜系路徑中數據行流程的螢幕快照。

  3. 如果資料行數目大於左窗格中可顯示的數據行數目,請使用篩選選項依名稱選取特定數據行。 或者,您可以使用滑鼠卷動清單。

    顯示如何在歷程頁面上依數據行名稱篩選數據行的螢幕快照。

  4. 如果譜系畫布包含更多節點和邊緣,請使用篩選條件依名稱選取數據資產或處理節點。 或者,您可以使用滑鼠來移動瀏覽歷程視窗。

    顯示歷程頁面上依名稱顯示數據資產節點的螢幕快照。

  5. 使用左窗格中的切換來反白顯示譜系畫布中的數據集清單。 如果您關閉切換,則會顯示包含至少一個選取數據行的任何資產。 如果您開啟切換,則只會顯示包含所有數據行的數據集。

    顯示如何使用切換來篩選歷程頁面上節點清單的螢幕快照。

處理數據行譜系

您也可以在資料目錄中檢視數據處理程式,例如複製活動。 例如,在此歷程流程中,選取複製活動:

數據歷程流程的螢幕快照,其中已醒目提示其中一個複製活動節點。

複製活動將會展開,然後您可以選取 [ 切換至資產 ] 按鈕,這會提供程式本身的更多詳細數據。

展開複製活動節點的螢幕快照,並已選取 [新切換至資產] 按鈕。

數據處理可能需要一或多個輸入數據集來產生一或多個輸出。 在 Microsoft Purview 中,數據行層級譜系適用於進程節點。

  1. 從資料行面板中的下拉式清單切換輸入和輸出數據集。

  2. 從一或多個數據表中選取數據行,以查看從輸入數據集流向對應輸出數據集的譜系。

    顯示進程節點之數據行譜系的螢幕快照。

瀏覽歷程中的資產

  1. 取 [切換至任何資產上的資產 ],以從歷程檢視檢視其對應的元數據。 這樣做是從譜系檢視瀏覽至目錄中另一個資產的有效方式。

    如何在歷程數據資產中選取 [切換至資產] 的螢幕快照。

  2. 對於熱門數據集而言,譜系畫布可能會變得很複雜。 為了避免雜亂,默認檢視只會顯示焦點中資產的五個譜系層級。 選取譜系畫布中的泡泡,即可展開譜系的其餘部分。 數據取用者也可以隱藏畫布中不感興趣的資產。 若要進一步減少雜亂,請關閉歷程畫布頂端的切換 [ 更多譜 系]。 此動作會隱藏歷程畫布中的所有泡泡。

    顯示如何切換 [更多譜系] 的螢幕快照。

  3. 使用譜系畫布中的智慧型手機按鈕,以取得譜系的最佳檢視:

    1. 全螢幕
    2. 縮放以符合大小
    3. 放大/縮小
    4. 自動對齊
    5. 縮放預覽
    6. 還有更多選項:
      1. 將目前的資產置中
      2. 重設為預設檢視

    顯示如何選取歷程智慧按鈕的螢幕快照。

手動或使用 REST API 建置自定義譜系

Microsoft Purview 的重要平臺功能之一,就是能夠顯示數據處理程式所建立之數據集之間的譜系。 Data Factory、Data Share 和 Power BI 等系統會在數據移動時擷取數據歷程。 在某些情況下,Purview 自動產生的譜系不完整或遺失,以供實際視覺效果和/或企業報告之用。 在這些案例中,您可以在 Microsoft Purview 入口網站中,或透過 Apache Atlas 攔截和 REST API 手動建立自定義譜系專案。 使用 REST API 報告或建置自定義譜系的另一個主要優點是克服或減輕手動譜系所公開功能的限制。

若要手動建置自定義譜系,您可以遵循此使用者指南: Microsoft Purview 中的手動譜系專案

若要使用 REST API 在 Microsoft Purview 中建置自定義譜系,請遵循此使用者指南: Microsoft Purview - 使用 REST API 建置自定義譜系

提示

在某些情況下,REST API 可以提供比透過入口網站手動建置譜系專案更多的輸入和自定義選項。

譜系最佳做法

後續步驟