如何從 Azure Synapse Analytics 到 Microsoft Purview 取得譜系
本檔說明將Azure Synapse工作區與 Microsoft Purview 帳戶連線以追蹤資料譜系和內嵌資料來源所需的步驟。 檔也會深入瞭解活動涵蓋範圍和支援的譜系功能。
當您將 Azure Synapse Analytics 連線到 Microsoft Purview 時,每當執行支援的管線活動時,活動來源資料、輸出資料和活動的相關中繼資料都會自動內嵌到Microsoft Purview 資料對應中。
如果資料來源已掃描並存在於資料對應中,則擷取程式會將歷程資訊從 Azure Synapse Analytics 新增至該現有來源。 如果來源或輸出不存在於資料對應中,且受到Azure Synapse Analytics 譜系支援,則 Microsoft Purview 會自動將其中繼資料從 Synapse Analytics 新增至根集合下的資料對應。
當使用者使用 Azure Synapse Analytics 移動和轉換資訊時,這可以是監視資料資產的絕佳方式。
支援的Azure Synapse功能
目前,Microsoft Purview 會從下列Azure Synapse管線活動擷取執行時間譜系:
重要事項
如果來源或目的地使用不支援的資料儲存系統,Microsoft Purview 會卸載譜系。
複製活動支援
資料存放區 | 支援 |
---|---|
Azure Blob 儲存體 | 是 |
Azure 認知搜尋 | 是 |
適用于 NoSQL 的 Azure Cosmos DB * | 是 |
適用于 MongoDB 的 Azure Cosmos DB * | 是 |
Azure Data Explorer * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
適用於 MariaDB 的 Azure 資料庫 * | 是 |
適用於 MySQL 的 Azure 資料庫 * | 是 |
適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
Azure 檔案儲存體 | 是 |
Azure SQL資料庫 * | 是 |
Azure SQL 受控執行個體 * | 是 |
Azure Synapse分析 * | 是 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
Azure 資料表儲存體 | 是 |
Amazon S3 | 是 |
蜂巢* | 是 |
甲骨文* | 是 |
聯機到 SAP ECC 或 SAP S/4HANA) 時的 SAP資料表 ( | 是 |
SQL Server * | 是 |
Teradata * | 是 |
* Microsoft Purview 目前不支援譜系或掃描的查詢或預存程式。 譜系僅限於資料表和檢視來源。
如果您使用自我裝載Integration Runtime,請注意具有下列服務支援的最低版本:
- 任何使用案例:5.9.7885.3 版或更新版本
- 從 Oracle 複製資料:5.10 版或更新版本
- 透過 COPY 命令或 PolyBase:5.10 版或更新版本,將資料複製到 Azure Synapse Analytics
複製活動譜系的限制
目前,如果您使用下列複製活動功能,則尚不支援譜系:
- 使用二進位格式將資料複製到 Azure Data Lake Storage Gen1。
- 二進位、分隔文字、Excel、JSON 和 XML 檔案的壓縮設定。
- Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server 和 SAP 資料表的來源資料分割選項。
- 將資料複製到檔案型接收,並設定每個檔案的最大資料列數。
- 當來源/接收已 設定資源時,複製活動目前不支援資料行層級譜系。
除了譜系外,也會針對下列連接器報告 [資產 - > 架構] 索引標籤) 中所顯示的資料資產架構 (:
- Azure Blob、Azure 檔案儲存體、ADLS Gen1、ADLS Gen2 和 Amazon S3 上的 CSV 和 Parquet 檔案
- Azure Data Explorer、Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server、Teradata
資料流程支援
資料存放區 | 支援 |
---|---|
Azure Blob 儲存體 | 是 |
適用于 NoSQL 的 Azure Cosmos DB * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
適用於 MySQL 的 Azure 資料庫 * | 是 |
適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
Azure SQL資料庫 * | 是 |
Azure SQL 受控執行個體 * | 是 |
Azure Synapse分析 * | 是 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
* Microsoft Purview 目前不支援譜系或掃描的查詢或預存程式。 譜系僅限於資料表和檢視來源。
資料流程譜系的限制
- 資料流程譜系可能會產生資料夾層級 資源集 ,而不會看到涉及的檔案。
- 當來源/接收已 設定資源時,目前不支援資料行層級譜系。
- 針對資料流程活動的譜系,Microsoft Purview 僅支援顯示所涉及的來源和接收。 尚不支援資料流程轉換的詳細譜系。
存取受保護的 Microsoft Purview 帳戶
如果您的 Microsoft Purview 帳戶受到防火牆保護,請瞭解如何讓Azure Synapse透過 Microsoft Purview 私人端點存取受保護的 Microsoft Purview 帳戶。
將Azure Synapse譜帶入 Microsoft Purview
步驟 1:將Azure Synapse工作區連線到您的 Microsoft Purview 帳戶
您可以將Azure Synapse工作區連線到 Microsoft Purview,而連線可讓Azure Synapse將歷程資訊推送至 Microsoft Purview。 請遵循將 Synapse 工作區連線到 Microsoft Purview 中的步驟。 多個Azure Synapse工作區可以連線到單一 Microsoft Purview 帳戶,以進行整體歷程追蹤。
步驟 2:在Azure Synapse工作區中執行管線
您可以在Azure Synapse工作區中建立具有複製活動的管線。 您不需要任何其他設定來擷取歷程資料。 在活動執行期間,系統會自動擷取歷程資料。
步驟 3:監視譜系報告狀態
執行Azure Synapse管線之後,您可以在 Synapse 管線監視檢視中選取下列 [譜系狀態] 按鈕來檢查歷程報告狀態。 活動輸出 JSON - >reportLineageToPurvew
區段中也提供相同的資訊。
步驟 4:檢視 Microsoft Purview 帳戶中的歷程資訊
在您的 Microsoft Purview 帳戶中,您可以流覽資產並選擇類型 「Azure Synapse Analytics」。 您也可以使用 關鍵字來搜尋資料目錄。
選取 Synapse 帳戶 - > 管線 - > 活動,您可以檢視歷程資訊。
監視Azure Synapse分析連結
在 Microsoft Purview 治理入口網站中,您可以監視Azure Synapse分析連結。