Microsoft Purview 資料目錄譜系使用者指南
本文提供Microsoft Purview 資料目錄中資料譜系功能的概觀。
背景
Microsoft Purview 的其中一個平臺功能是能夠顯示資料處理程式所建立之資料集之間的譜系。 Data Factory、Data Share 和 Power BI 等系統會在資料移動時擷取資料譜系。 透過 Atlas 勾點和 REST API 也支援自訂譜系報告。
譜系集合
在 Microsoft Purview 中從企業資料系統收集的中繼資料會拼接在一起,以顯示端對端資料譜系。 將譜系收集到 Microsoft Purview 的資料系統大致分類為下列三種類型:
每個系統都支援不同層級的譜系範圍。 請檢查下列各節或您系統的個別譜系文章,以確認目前可用的譜系範圍。
已知限制
- 作為進程活動來源的資料庫檢視 (Azure Data Factory、Synapse Pipelines、Azure SQL Database、Azure Data Share) 目前會擷取為 Microsoft Purview 中的資料庫資料表物件。 如果同時掃描資料庫,則會在 Microsoft Purview 中個別探索檢視資產。 在此案例中,會在 Microsoft Purview 中擷取兩個名稱相同的資產,一個是資料譜系的資料表,另一個則是檢視。
- 如果預存套裝程式含 drop 或 create 語句,則目前不會在譜系中擷取這些語句。
資料處理系統
資料整合和 ETL 工具可以在執行時間將譜系推送至 Microsoft Purview。 Data Factory、Data Share、Synapse、Azure Databricks 等工具屬於此類資料處理系統。 資料處理系統會參考資料集作為來自不同資料庫和儲存體解決方案的來源,以建立目標資料集。 下表列出目前與適用于譜系的 Microsoft Purview 整合的資料處理系統清單。
資料處理系統 | 支援的範圍 |
---|---|
氣流 | 氣流譜系 |
Azure Data Share | 共用快照集 |
Azure Data Factory |
複製活動 資料流程活動 執行 SSIS 套件活動 |
Azure SQL 資料庫 (預覽) | 預存程式執行的譜系擷取 |
Azure Synapse Analytics |
複製活動 資料流程活動 |
資料儲存系統
&Oracle、Teradata 和 SAP 等資料庫儲存體解決方案具有查詢引擎,可使用指令碼語言來轉換資料。 來自檢視/預存程式/等的資料譜系資訊會收集到 Microsoft Purview 中,並與來自其他系統的譜系結合。 透過 Microsoft Purview 資料掃描支援下列資料來源的譜系。 從個別的文章深入瞭解支援的譜系案例。
類別 | 資料來源 |
---|---|
Azure | Azure Databricks |
Database | 卡珊多拉 |
Db2 | |
Google BigQuery | |
Hive 中繼存放區資料庫 | |
Mysql | |
甲骨文 | |
PostgreSQL | |
雪花 | |
Teradata | |
服務和應用程式 | 歐文 |
旁觀者 | |
SAP ECC | |
SAP S/4HANA |
資料分析和報告系統
Azure Machine Learning 和 Power BI 報表譜系等資料分析和報告系統會進入 Microsoft Purview。 這些系統會使用儲存系統中的資料集,並透過其中繼模型來建立 BI 儀表板、ML 實驗等等。
資料分析 & 報告系統 | 支援的範圍 |
---|---|
Power BI | 資料集、資料流程、報 & 表儀表板 |
開始使用譜系
Microsoft Purview 中的譜系包含資料集和進程。 資料集也稱為節點,而進程也可以稱為邊緣:
資料集 (節點) :資料集 (結構化或非結構化) 做為進程的輸入。 例如,SQL 資料表、Azure Blob 和 .csv 和 .xml) 等 (檔案都會被視為資料集。 在 Microsoft Purview 的歷程區段中,資料集會以矩形方塊表示。
處理 (Edge) :在資料集上執行的活動或轉換稱為進程。 例如,ADF 複製活動、Data Share快照集等等。 在 Microsoft Purview 的 [譜系] 區段中,進程會以四捨五入方塊表示。
若要存取 Microsoft Purview 中資產的歷程資訊,請遵循下列步驟:
透過下列方式開啟 Microsoft Purview 治理入口網站:
- 直接流覽並 https://web.purview.azure.com 選取您的 Microsoft Purview 帳戶。
- 開啟Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [Microsoft Purview 治理入口網站] 按鈕。
在 Microsoft Purview 治理入口網站 首 頁上,搜尋資料集名稱或進程名稱,例如 ADF 複製或資料流程活動。 然後按 Enter。
從搜尋結果中選取資產,然後選取其 [譜系] 索引卷 標。
資產層級譜系
Microsoft Purview 支援資料集和進程的資產層級譜系。 若要查看資產層級譜系,請移至目錄中目前資產的 [ 譜系 ] 索引標籤。 選取目前的資料集資產節點。 根據預設,屬於資料的資料行清單會出現在左窗格中。
手動譜系
Microsoft Purview 中的資料譜系會針對內部部署、多重雲端和 SaaS 環境中的許多資產 自動化 。 雖然我們繼續新增更多自動化來源,但手動譜系可讓您記錄尚未支援自動化之來源的譜系中繼資料,而不需要使用任何程式碼。
若要為任何資產新增手動譜系,請遵循下列步驟:
在資料目錄中搜尋您的資產, 並加以選取以檢視詳細資料。
選取 [編輯],流覽至 [ 譜系] 索引 標籤,然後選取底部面板中的 [ 新增手動譜系 ]。
若要設定資產譜系:
- 選取 [資產] 下拉式清單,從建議的清單中尋找資產,或選 取 [檢視更多 ] 以搜尋完整目錄。 選取您想要連結的資產。
- 選取交換圖示,將關聯性方向設定為 產生 下游歷程) 的 (,或 取 用上游歷程) 的 (。
- 如果您想要刪除譜系,請選取垃圾桶圖示。
當您在兩個數據資產之間新增譜系時,可以另外設定資料行層級譜系。 選取資料列開頭的展開圖示,從對應的下拉式清單中選取上游和下游資料行,以設定資料行對應。 選取加號圖示以新增更多資料行譜系;選取垃圾桶圖示以刪除現有的垃圾桶圖示。
您可以再次選取 [ 新增手動譜系 ] 按鈕,以新增更多資產層級譜系。 當您完成時,請選取 [ 儲存 ] 按鈕以儲存譜系並結束編輯模式。
手動譜系的已知限制
- 目前的資產選擇器體驗允許一次只選取一個資產。
- 兩個數據資產之間的譜系目前支援資料行層級手動譜系,而在兩者之間涉及處理資產時則不支援。
- 來源和目標資產都需要資料策劃存取。
- 這些資產類型目前不允許手動譜系,因為它們支援自動化譜系:
- Azure Data Factory
- Synapse 管線
- Power BI 資料集
- Teradata 預存程式
- Azure SQL預存程式
資料集資料行譜系
若要查看資料集的資料行層級譜系,請移至目錄中目前資產的 [ 譜系 ] 索引標籤,並遵循下列步驟:
一旦您位於 [譜系] 索引標籤中,請在左窗格中選取您想要在資料譜系中顯示之每個資料行旁邊的核取方塊。
將滑鼠停留在左窗格或歷程畫布資料集的選取資料行上方,以查看資料行對應。 所有資料行實例都會反白顯示。
如果資料行數目大於左窗格中可顯示的資料行數目,請使用篩選選項依名稱選取特定資料行。 或者,您可以使用滑鼠捲動清單。
如果譜系畫布包含更多節點和邊緣,請使用篩選準則依名稱選取資料資產或處理節點。 或者,您可以使用滑鼠來移動流覽歷程視窗。
使用左窗格中的切換來反白顯示譜系畫布中的資料集清單。 如果您關閉切換,則會顯示包含至少一個選取資料行的任何資產。 如果您開啟切換,則只會顯示包含所有資料行的資料集。
處理資料行譜系
您也可以在資料目錄中檢視資料處理程式,例如複製活動。 例如,在此歷程流程中,選取複製活動:
複製活動將會展開,然後您可以選取 [ 切換至資產 ] 按鈕,這會提供程式本身的更多詳細資料。
資料處理可能需要一或多個輸入資料集來產生一或多個輸出。 在 Microsoft Purview 中,資料行層級譜系適用于進程節點。
流覽歷程中的資產
選 取 [切換至任何資產上的資產 ],以從歷程檢視檢視檢視其對應的中繼資料。 這樣做是從譜系檢視流覽至目錄中另一個資產的有效方式。
對於熱門資料集而言,譜系畫布可能會變得很複雜。 為了避免雜亂,預設檢視只會顯示焦點中資產的五個譜系層級。 選取譜系畫布中的泡泡,即可展開譜系的其餘部分。 資料取用者也可以隱藏畫布中不感興趣的資產。 若要進一步減少雜亂,請關閉歷程畫布頂端的切換 [ 更多譜 系]。 此動作會隱藏曆程畫布中的所有泡泡。
使用譜系畫布中的智慧型按鈕,以取得譜系的最佳檢視:
- 全螢幕
- 縮放以符合大小
- 放大/縮小
- 自動對齊
- 縮放預覽
- 還有更多選項:
- 將目前的資產置中
- 重設為預設檢視