分享方式:


使用複製活動來複製資料

在資料管線中,您可以使用複製活動在位於雲端的資料存放區之間複製資料。

複製資料之後,您可以使用其他活動進一步轉換和分析資料。 您也可以使用複製活動來發佈商業智慧 (BI) 及應用程式使用情況的轉換和分析結果。

若要從來源複製資料到目的地,執行複製活動的服務會執行下列步驟:

  1. 從來源資料存放區讀取資料。
  2. 執行序列化/還原序列化、壓縮/解壓縮及資料行對應等。 它會根據組態來執行這些作業。
  3. 將資料寫入目的地資料存放區。

必要條件

開始之前,必須先滿足以下先決條件:

  • 具有有效訂用帳戶的 Microsoft Fabric 租用戶帳戶。 免費建立帳戶。

  • 請確定您有啟用 Microsoft Fabric 的工作區。

使用複製助理新增複製活動

請遵循下列步驟,使用複製助理設定您的複製活動。

從複製助理開始

  1. 開啟現有的資料管線,或建立新的資料管線。

  2. 選取創作區上的 [複製資料] 以開啟 [複製助理] 工具以開始使用。 或者,從功能區 [活動] 索引標籤底下的 [複製資料] 下拉式清單中選取 [使用複製助理]

    螢幕擷取畫面,其中顯示開啟複製助理的選項。

設定來源

  1. 從類別中選取資料來源類型。 您將使用 Azure Blob 儲存體作為範例。 選取 [從 Azure 儲存體],然後選取 [下一步]

    [選擇資料來源] 畫面的螢幕擷取畫面。

  2. 選取 [建立新連線],以建立資料來源的連線。

    顯示選取新連線之位置的螢幕擷取畫面。

    選取 [建立新連線] 之後,請填入必要的連線資訊,然後選取 [下一步]。 如需每種資料來源類型連線建立的詳細資料,您可以參考每篇連接器文章

    如果您有現有的連線,您可以選取 [現有連線],然後從下拉式清單中選取您的連線。

    顯示現有連線的螢幕擷取畫面。

  3. 選擇要在此來源設定步驟中複製的檔案或資料夾,然後選取 [下一步]

    顯示選取要複製資料之位置的螢幕擷取畫面。

設定目的地

  1. 從類別中選取資料來源類型。 您將使用 Azure Blob 儲存體作為範例。 您可以遵循上一節中的步驟,或使用連線下拉式清單中的現有連線,建立連結至新 Azure Blob 儲存體帳戶的新連線。 [測試連線] 和 [編輯] 功能可提供每個選取的連線使用。

    顯示如何選取 Azure 儲存體的螢幕擷取畫面。

  2. 設定並將您的來源資料對應到目的地。 然後選取 [下一步] 以完成目的地設定。

    中顯示 [對應至目的地] 畫面的螢幕擷取畫面。

    連線到資料目的地的螢幕擷取畫面。

    注意

    您只能在相同的複製活動內使用單一內部部署資料閘道。 如果來源和接收都是內部部署資料來源,則必須使用相同的閘道。 若要在具有不同閘道的內部部署資料來源之間移動資料,您必須使用第一個閘道將第一個閘道複製到一個複製活動中的中繼雲端來源。 然後,您可以使用另一個複製活動,使用第二個閘道從中繼雲端來源複製它。

檢閱並建立複製活動

  1. 在先前的步驟中檢閱您的複製活動設定,然後選取 [確定] 完成。 或者,您可以返回先前的步驟,視需要在工具中編輯您的設定。

    顯示檢閱和建立畫面的螢幕擷取畫面。

完成後,複製活動就會新增至您的資料管線畫布。 選取此複製活動時,所有設定,包括此複製活動的進階設定,皆可在索引標籤下取得。

螢幕擷取畫面,其中顯示資料管線創作區上的複製活動。

現在您可以使用這個單一複製活動來儲存資料管線,或繼續設計您的資料管線。

直接新增複製活動

請遵循下列步驟,直接新增複製活動。

新增複製活動。

  1. 開啟現有的資料管線,或建立新的資料管線。

  2. 透過選取 [新增管線活動]>[複製活動] 或透過選取 [活動] 索引標籤下的 [複製資料]>[新增至畫布] 來新增複製活動。

    螢幕擷取畫面,其中顯示新增複製活動的兩種方式。

在 [一般] 索引標籤下設定您的一般設定

若要了解如何設定一般設定,請參閱 一般

在 [來源] 索引標籤下設定您的來源

  1. 選取 [連線] 旁的 [+ 新增] 為資料來源建立連線。

    顯示選取新增之位置的螢幕擷取畫面。

    1. 從快顯視窗中選擇資料來源類型。 您將使用 Azure SQL 資料庫做為範例。 選取 [Azure SQL Database],然後選取 [繼續]

      顯示如何選取資料來源的螢幕擷取畫面。

    2. 它會瀏覽至 [連線建立] 頁面。 在面板上填入必要的連線資訊,然後選取 [建立]。 如需每種資料來源類型連線建立的詳細資料,您可以參考每篇連接器文章

      顯示 [新增連線] 頁面的螢幕擷取畫面。

    3. 成功建立連線之後,它會帶您回到資料管線頁面。 然後選取 [重新整理],從下拉式清單中擷取您所建立的連線。 如果您先前已建立 Azure SQL 資料庫連線,您也可以直接從下拉式清單中選擇現有的 Azure SQL 資料庫連線。 每個選取的連線都可以使用 [測試連線] 和 [編輯] 功能。 然後選取 [連線] 類型下的 [Azure SQL 資料庫]

      螢幕擷取畫面,其中顯示重新整理連線的位置。

  2. 指定要複製的資料表。 選取 [預覽資料] 以預覽源資料表。 您也可以使用 [查詢] 和 [預存程序] 從來源讀取資料。

    顯示來源資料表設定選項的螢幕擷取畫面。

  3. 展開 [進階] 以取得更進階的設定。

    進階設定的螢幕擷取畫面。

在目的地索引標籤下設定目的地

  1. 選擇您的目的地類型。 這可能是您工作區中的內部一等資料存放區,例如 Lakehouse 或外部資料存放區。 您將使用 Lakehouse 作為範例。

    螢幕擷取畫面,其中顯示選取目的地的位置。

  2. 選擇在 [工作區資料儲存類型] 中使用 [Lakehouse]。 選取 [+ 新增],即會瀏覽至 [Lakehouse 建立] 頁面。 指定您的 Lakehouse 名稱,然後選取 [建立]

    顯示 [Lakehouse 建立] 的螢幕擷取畫面。

  3. 成功建立連線之後,它會帶您回到資料管線頁面。 然後選取 [重新整理],從下拉式清單中擷取您所建立的連線。 如果您之前已建立現有的 Lakehouse 連線,您也可以直接從下拉式清單中選擇現有的 Lakehouse 連線。

    螢幕擷取畫面,其中顯示選取中的連線。

  4. 指定資料表或設定檔案路徑,以將檔案或資料夾定義為目的地。 在這裡,選取 [資料表],並指定要寫入資料的資料表。

    顯示尋找資料表設定位置的螢幕擷取畫面。

  5. 展開 [進階] 以取得更進階的設定。

    進階選項的螢幕擷取畫面。

現在您可以使用這個單一複製活動來儲存資料管線,或繼續設計您的資料管線。

在 [對應] 索引標籤下設定對應

如果您套用的連接器支援對應,您可以移至 [對應] 索引標籤來設定對應。

  1. 選取 [匯入結構描述] 以匯入資料結構描述。

    螢幕擷取畫面,其中顯示對應設定 1。

  2. 您可以看到已顯示自動對應。 指定 [來源] 資料行和 [目的地] 資料行。 如果您在目的地中建立新的資料表,您可以在這裡自訂目的地資料行名稱。 如果您想要將資料寫入現有的目的地資料表,則無法修改現有的 Destination 資料行名稱。 您也可以檢視來源和目的地資料行的類型。

    螢幕擷取畫面,其中顯示對應設定 2。

此外,您可以選取 [+ 新增對應] 以新增對應、選取 [清除] 以清除所有對應設定,然後選取 [重設] 以重設所有對應 [來源] 資料行。

在 [設定] 索引標籤底下設定其他設定

[設定] 索引標籤包含效能、檢閱及測試等的設定。

設定索引標籤的螢幕擷取畫面。

請參閱下表了解各設定的說明。

設定 描述 JSON 指令碼屬性
智慧型輸送量最佳化 指定以最佳化輸送量。 您可以選擇:
自動
標準
平衡
最大值

當您選擇 [自動] 時,會根據來源目的地配對和資料模式動態套用最佳設定。 您也可以自訂輸送量,而自訂值可以是 2-256,而較高的值表示更多收益。
dataIntegrationUnits
複製平行處理原則的程度 指定資料載入將使用的平行處理原則程度。 parallelCopies
容錯 選取此選項時,您可以忽略複製程式中間發生的一些錯誤。 例如,來源和目的地存放區之間的不相容資料列、在資料移動期間刪除檔案等等。 • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
啟用記錄 選取此選項時,您可以記錄複製的檔案、略過的檔案和資料列。 /
啟用暫存 指定是否要透過過渡暫存存放區複製資料。 僅針對有益的案例啟用檢閱及測試。 enableStaging
資料存放區類型 啟用預備時,您可以選擇 [工作區] 和 [外部] 作為資料存放區類型。 /
針對工作區
工作區 指定以使用內建檢閱及測試記憶體。 /
針對外部
檢閱及測試帳戶連線 指定 Azure Blob 儲存體Azure Data Lake 儲存體 Gen2 的連線,以代表您用來做為過渡暫存存放區的儲存體執行個體。 如果您沒有檢閱及測試連線,請建立檢閱及測試連線。 連線 (在 externalReferences 下)
儲存體路徑 指定要您想要包含分段資料的路徑。 如果未提供路徑,服務會建立容器來儲存暫存資料。 只有在使用具有共用存取簽章的儲存體時,或需要讓暫存資料位於特定位置時,才指定路徑。 path
啟用壓縮 指定將資料複製到目的地之前,是否應該壓縮資料。 此設定可減少傳輸的資料量。 enableCompression
Preserve 指定是否要在資料複製期間保留中繼資料/ACL。 保留

注意

如果您在啟用壓縮的情況下使用分段複製,則不支援暫存 Blob 連線的服務主體或驗證功能。

在複製活動中設定參數

參數可用來控制管線及其活動的行為。 您可以使用 [新增動態內容] 來指定複製活動屬性的參數。 讓我們將 Lakehouse/資料倉儲/KQL 資料庫指定為範例,以了解如何使用。

  1. 在來源或目的地中,選取 [工作區] 作為資料存放區類型,並將 Lakehouse/ 資料倉儲/ KQL 資料庫指定為工作區資料存放區類型之後,請在 Lakehouse資料倉儲KQL 資料庫的下拉式清單中選取 [新增動態內容]

  2. 在快顯 [新增動態內容] 窗格的 [參數] 索引標籤下,選取 +

    顯示新增動態內容頁面的螢幕擷取畫面。

  3. 指定參數的名稱,並視需要提供預設值,或者您可以在管線中選取 [執行] 之後指定參數的值。

    顯示建立新參數的螢幕擷取畫面。

    請注意,參數值應該是 Lakehouse/Data Warehouse/KQL Database 物件 ID。 若要取得 Lakehouse/資料倉儲/KQL 資料庫物件 ID,請在工作區中開啟 Lakehouse/資料倉儲/KQL 資料庫,而 ID 是在您的網址中的 /lakehouses//datawarehouses//databases/ 之後。

    • Lakehouse 物件 ID

      螢幕擷取畫面,其中顯示 [Lakehouse 物件識別碼]。

    • 資料倉儲物件 ID

      顯示資料倉儲物件 ID 的螢幕擷取畫面。

    • KQL 資料庫物件 ID

      顯示 KQL 資料庫物件 ID 的螢幕擷取畫面。

  4. 選取 [儲存] 傳回 [新增動態內容] 窗格。 然後選取您的參數,使其出現在運算式方塊中。 然後選取確定。 您將回到管線頁面,而且可以看到在 Lakehouse 物件標識碼/資料倉儲對象識別碼/KQL Database 物件識別碼之後指定參數表達式。

    顯示選取參數的螢幕擷取畫面。