如何連線Azure Data Factory和 Microsoft Purview

本檔說明將Azure Data Factory帳戶與 Microsoft Purview 帳戶連線以追蹤資料譜系內嵌資料來源所需的步驟。 檔也會深入瞭解活動涵蓋範圍範圍和支援的譜系模式。

當您將Azure Data Factory連線到 Microsoft Purview 時,每當執行支援的Azure Data Factory活動時,活動來源資料、輸出資料和活動的相關中繼資料都會自動內嵌到Microsoft Purview 資料對應中。

如果資料來源已掃描且存在於資料對應中,則擷取程式會將歷程資訊從Azure Data Factory新增至該現有來源。 如果來源或輸出不存在於資料對應中,且受到Azure Data Factory譜系的支援,則 Microsoft Purview 會自動將其中繼資料從Azure Data Factory新增至根集合下的資料對應。

當使用者使用Azure Data Factory移動和轉換資訊時,這可以是監視資料資產的絕佳方式。

檢視現有的 Data Factory 連線

多個 Azure Data Factory 可以連線到單一 Microsoft Purview 來推送歷程資訊。 目前的限制可讓您一次從 Microsoft Purview 管理中心連線最多 10 個 Data Factory 帳戶。 若要顯示連線到 Microsoft Purview 帳戶的 Data Factory 帳戶清單,請執行下列動作:

  1. 選取左側流覽窗格上的 [ 管理 ]。

  2. [譜系連線] 下,選取 [Data Factory]

  3. Data Factory 連線清單隨即出現。

    顯示 Data Factory 連線清單的螢幕擷取畫面。

  4. 請注意連線 狀態的各種值:

    • 已聯機:資料處理站已連線到 Microsoft Purview 帳戶。
    • 已中斷聯機:資料處理站可以存取目錄,但已連線到另一個目錄。 因此,資料譜系不會自動回報給目錄。
    • CannotAccess:目前的使用者無法存取 Data Factory,因此線上狀態不明。

注意事項

若要檢視 Data Factory 連線,您必須獲指派下列角色。 不支援從管理群組繼承角色。 根集合上的集合管理員 角色。

建立新的 Data Factory 連線

注意事項

若要新增或移除 Data Factory 連線,您必須獲指派下列角色。 不支援從管理群組繼承角色。 根集合上的集合管理員 角色。

此外,也需要使用者成為資料處理站的「擁有者」或「參與者」。

您的資料處理站必須啟用系統指派的受控識別。

請遵循下列步驟,將現有的資料處理站連線到您的 Microsoft Purview 帳戶。 您也可以 從 ADF 將 Data Factory 連線到 Microsoft Purview 帳戶

  1. 選取左側流覽窗格上的 [ 管理 ]。

  2. [譜系連線] 下,選取 [Data Factory]

  3. 在 [ Data Factory 連線] 頁面上,選取 [ 新增]

  4. 從清單中選取您的 Data Factory 帳戶,然後選取 [ 確定]。 您也可以依訂用帳戶名稱進行篩選,以限制您的清單。

    如果 Data Factory 已連線到目前的 Microsoft Purview 帳戶,或 Data Factory 沒有受控識別,則可能會停用某些 Data Factory 實例。

    如果任何選取的 Data Factory 已連線到其他 Microsoft Purview 帳戶,則會顯示警告訊息。 當您選取 [確定] 時,Data Factory 與其他 Microsoft Purview 帳戶的連線將會中斷連線。 不需要其他確認。

    顯示中斷連線Azure Data Factory警告的螢幕擷取畫面。

注意事項

我們支援一次新增最多 10 個Azure Data Factory帳戶。 如果您想要新增 10 個以上的 Data Factory 帳戶,請分批執行此動作。

驗證的運作方式

Data Factory 的受控識別可用來驗證從 Data Factory 到 Microsoft Purview 的歷程推送作業。 當您將資料處理站連線到 UI 上的 Microsoft Purview 時,它會自動新增角色指派。

在 Microsoft Purview根集合上授與資料處理站的受控識別資料編者角色。 深入瞭解 Microsoft Purview 中的存取控制新增角色,並透過集合限制存取

移除 Data Factory 連線

若要移除 Data Factory 連線,請執行下列動作:

  1. 在 [ Data Factory 連線] 頁面上,選取一或多個 Data Factory 連線旁的 [ 移除 ] 按鈕。

  2. 在快顯視窗中選取 [ 確認 ],以刪除選取的資料處理站連線。

    顯示如何選取資料處理站以移除連線的螢幕擷取畫面。

在 Microsoft Purview 治理入口網站中,您可以 監視 Data Factory 連結

支援的Azure Data Factory活動

Microsoft Purview 會從下列Azure Data Factory活動擷取執行時間歷程:

重要事項

如果來源或目的地使用不支援的資料儲存系統,Microsoft Purview 會卸載譜系。

Data Factory 與 Microsoft Purview 之間的整合僅支援 Data Factory 支援的一部分資料系統,如下列各節所述。

複製活動支援

資料存放區 支援
Azure Blob 儲存體
Azure 認知搜尋
適用于 NoSQL 的 Azure Cosmos DB *
適用于 MongoDB 的 Azure Cosmos DB *
Azure Data Explorer *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
適用於 MariaDB 的 Azure 資料庫 *
適用於 MySQL 的 Azure 資料庫 *
適用於 PostgreSQL 的 Azure 資料庫 *
Azure 檔案儲存體
Azure SQL資料庫 *
Azure SQL 受控執行個體 *
Azure Synapse分析 *
Azure 專用 SQL 集區 (先前稱為 SQL DW) *
Azure 資料表儲存體
Amazon S3
蜂巢*
甲骨文*
機到 SAP ECC 或 SAP S/4HANA) 時的 SAP資料表 (
SQL Server *
Teradata *

* Microsoft Purview 目前不支援譜系或掃描的查詢或預存程式。 譜系僅限於資料表和檢視來源。

如果您使用自我裝載Integration Runtime,請注意具有下列服務支援的最低版本:

  • 任何使用案例:5.9.7885.3 版或更新版本
  • 從 Oracle 複製資料:5.10 版或更新版本
  • 透過 COPY 命令或 PolyBase:5.10 版或更新版本,將資料複製到 Azure Synapse Analytics

複製活動譜系的限制

目前,如果您使用下列複製活動功能,則尚不支援譜系:

  • 使用二進位格式將資料複製到 Azure Data Lake Storage Gen1。
  • 二進位、分隔文字、Excel、JSON 和 XML 檔案的壓縮設定。
  • Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server 和 SAP 資料表的來源資料分割選項。
  • 將資料複製到檔案型接收,並設定每個檔案的最大資料列數。
  • 當來源/接收已 設定資源時,複製活動目前不支援資料行層級譜系。

除了譜系外,也會針對下列連接器報告 [資產 - > 架構] 索引標籤) 中所顯示的資料資產架構 (:

  • Azure Blob、Azure 檔案儲存體、ADLS Gen1、ADLS Gen2 和 Amazon S3 上的 CSV 和 Parquet 檔案
  • Azure Data Explorer、Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server、Teradata

資料流程支援

資料存放區 支援
Azure Blob 儲存體
適用于 NoSQL 的 Azure Cosmos DB *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
適用於 MySQL 的 Azure 資料庫 *
適用於 PostgreSQL 的 Azure 資料庫 *
Azure SQL資料庫 *
Azure SQL 受控執行個體 *
Azure Synapse分析 *
Azure 專用 SQL 集區 (先前稱為 SQL DW) *

* Microsoft Purview 目前不支援譜系或掃描的查詢或預存程式。 譜系僅限於資料表和檢視來源。

資料流程譜系的限制

  • 資料流程譜系可能會產生資料夾層級 資源集 ,而不會看到涉及的檔案。
  • 當來源/接收已 設定資源時,目前不支援資料行層級譜系。
  • 針對資料流程活動的譜系,Microsoft Purview 僅支援顯示所涉及的來源和接收。 尚不支援資料流程轉換的詳細譜系。

執行 SSIS 套件支援

請參閱 支援的資料存放區

存取受保護的 Microsoft Purview 帳戶

如果您的 Microsoft Purview 帳戶受到防火牆保護,請瞭解如何讓 Data Factory 透過 Microsoft Purview 私人端點存 取受保護的 Microsoft Purview 帳戶

將 Data Factory 譜系帶入 Microsoft Purview

如需端對端逐步解說,請遵循 教學課程:將 Data Factory 譜系資料推送至 Microsoft Purview

支援的譜系模式

Microsoft Purview 支援數種譜系模式。 產生的譜系資料是以 Data Factory 活動中所使用的來源和接收類型為基礎。 雖然 Data Factory 支援超過 80 個來源和接收器,但 Microsoft Purview 僅支援子集,如支援的Azure Data Factory活動中所列。

若要設定 Data Factory 以傳送歷程資訊,請參閱 開始使用譜系

在譜系檢視中尋找資訊的一些其他方式包括:

  • 在 [ 譜系] 索引 標籤中,將滑鼠停留在圖形上,以預覽工具提示中資產的其他相關資訊。
  • 選取節點或邊緣以查看其所屬的資產類型,或切換資產。
  • 資料集的資料行會顯示在 [ 譜系] 索引 標籤的左側。如需資料行層級譜系的詳細資訊,請 參閱資料集資料行譜系

1:1 作業的資料譜系

擷取資料譜系的最常見模式是將資料從單一輸入資料集移至單一輸出資料集,並在兩者之間進行程式。

此模式的範例如下:

  • 1 個來源/輸入: 客戶 (SQL 資料表)
  • 1 個接收/輸出: Customer1.csv (Azure Blob)
  • 1 個進程:CopyCustomerInfo1#Customer1.csv (Data Factory 複製活動)

顯示一對一 Data Factory 複製作業歷程的螢幕擷取畫面。

具有 1:1 譜系和萬用字元支援的資料移動

擷取譜系的另一個常見案例是使用萬用字元,將檔案從單一輸入資料集複製到單一輸出資料集。 萬用字元可讓複製活動比對多個檔案,以便使用檔案名的一般部分進行複製。 Microsoft Purview 會擷取對應複製活動所複製之每個個別檔案的檔案層級譜系。

此模式的範例如下:

  • 來源/輸入: (ADLS Gen2 路徑 .csvCustomerCall* )
  • 接收/輸出: (Azure Blob 檔案 .csvCustomerCall* )
  • 1 個程式:CopyGen2ToBlob#CustomerCall.csv (Data Factory 複製活動)

顯示具有萬用字元支援之一對一複製作業譜系的螢幕擷取畫面。

具有 n:1 譜系的資料移動

您可以使用資料流程活動來執行合併、聯結等資料作業。 可以使用多個源資料集來產生目標資料集。 在此範例中,Microsoft Purview 會將個別輸入檔案的檔案層級譜系擷取到屬於資料流程活動的 SQL 資料表。

此模式的範例如下:

  • 2 個來源/輸入: Customer.csvSales.parquet (ADLS Gen2 路徑)
  • 1 個接收/輸出:公司資料 (Azure SQL 資料表)
  • 1 個程式: DataFlowBlobsToSQL (Data Factory 資料流程活動)

顯示 n 到一個 A D F 資料流程作業歷程的螢幕擷取畫面。

資源集的譜系

資源集是目錄中的邏輯物件,代表基礎儲存體中的許多分割區檔案。 如需詳細資訊,請 參閱瞭解資源集。 當 Microsoft Purview 從Azure Data Factory擷取譜系時,它會套用規則來將個別分割區檔案正規化,並建立單一邏輯物件。

在下列範例中,會從 Azure Blob 產生 Azure Data Lake Gen2 資源集:

  • 1 個來源/輸入: Employee_management.csv (Azure Blob)
  • 1 個接收/輸出: Employee_management.csv (Azure Data Lake Gen 2)
  • 1 個程式:CopyBlobToAdlsGen2_RS (Data Factory 複製活動)

顯示資源集歷程的螢幕擷取畫面。

後續步驟

教學課程:將 Data Factory 譜系資料推送至 Microsoft Purview

目錄譜系使用者指南

針對譜系連結至 Azure Data Share