如何使用複製活動複製數據
在數據管線中,您可以使用 複製活動,在位於雲端的數據存放區之間複製數據。
複製資料之後,您可以使用其他活動進一步轉換和分析資料。 您也可以使用複製活動來發佈商業智慧 (BI) 及應用程式使用情況的轉換和分析結果。
若要將數據從來源複製到目的地,執行 複製活動的服務會執行下列步驟:
- 從來源資料存放區讀取資料。
- 執行序列化/還原序列化、壓縮/解壓縮及資料行對應等。 它會根據組態來執行這些作業。
- 將資料寫入目的地資料存放區。
必要條件
若要開始使用,您必須完成下列必要條件:
具有使用中訂用帳戶的 Microsoft Fabric 租用戶帳戶。 免費建立帳戶。
請確定您已啟用 Microsoft Fabric 的工作區。
使用複製助理新增複製活動
請遵循下列步驟,使用複製助理設定您的複製活動。
從複製助理開始
開啟現有的數據管線,或建立新的數據管線。
選取 畫佈上的 [複製數據 ] 以開啟 複製小幫 手工具以開始使用。 或者,從功能區 [活動] 索引標籤底下的 [複製數據] 下拉式清單中選取 [使用複製小幫手]。
設定來源
從類別中選取數據源類型。 您將使用 Azure Blob 儲存體 作為範例。 選取 [Azure Blob 儲存體],然後選取 [下一步]。
選取 [建立新連線],以建立數據源的連線。
選取 [ 建立新連線] 之後,請填入必要的連線資訊,然後選取 [ 下一步]。 如需每種數據來源類型連線建立的詳細數據,您可以參考每個 連接器一文。
如果您有現有的連線,您可以選取 [現有連線 ],然後從下拉式清單中選取您的連線。
選擇要在此來源設定步驟中複製的檔案或資料夾,然後選取 [ 下一步]。
設定目的地
從類別中選取數據源類型。 您將使用 Azure Blob 儲存體 作為範例。 選取 [Azure Blob 儲存體],然後選取 [下一步]。
您可以遵循上一節中的步驟,或使用連線下拉式清單中的現有連線,建立連結至新 Azure Blob 儲存體 帳戶的新連線。 [測試連線] 和 [編輯] 的功能可供每個選取的連接使用。
設定源數據並將其對應至目的地。 然後選取 [ 下一步] 以完成您的目的地設定。
注意
您只能在相同的 複製活動 內使用單一內部部署數據閘道。 如果來源和接收都是內部部署數據源,則必須使用相同的閘道。 若要在不同閘道的內部部署資料源之間行動資料,您必須使用第一個閘道將第一個閘道複製到一個 複製活動 中的中繼雲端來源。 然後,您可以使用另一個 複製活動,使用第二個閘道從中繼雲端來源複製它。
檢閱並建立複製活動
完成後,複製活動就會新增至您的數據管線畫布。 選取此複製活動時,所有設定,包括此複製活動的進階設定,皆可在索引卷標下取得。
現在您可以使用這個單一複製活動來儲存資料管線,或繼續設計您的數據管線。
直接新增複製活動
請遵循下列步驟,直接新增複製活動。
新增複製活動
在 [一般] 索引標籤下設定您的一般設定
若要瞭解如何設定一般設定,請參閱 一般。
在 [來源] 索引標籤下設定您的來源
選取 [連線] 旁的 [+ 新增],以建立數據源的連線。
從彈出視窗中選擇資料來源類型。 您將使用 Azure SQL 資料庫 作為範例。 選取 [Azure SQL Database],然後選取 [繼續]。
它會巡覽至連線建立頁面。 在面板上填入必要的連線資訊,然後選取 [ 建立]。 如需每種數據來源類型連線建立的詳細數據,您可以參考每個 連接器一文。
成功建立連線之後,它會帶您回到數據管線頁面。 然後選取 [ 重新 整理],從下拉式清單中擷取您所建立的連接。 如果您先前已建立 Azure SQL 資料庫 連線,您也可以直接從下拉式清單中選擇現有的 Azure SQL 資料庫 連線。 [測試連線] 和 [編輯] 的功能可供每個選取的連接使用。 然後選取 [連線類型] 中的 [Azure SQL 資料庫]。
指定要複製的數據表。 選取 [預覽數據 ] 以預覽源數據表。 您也可以使用 查詢 和 預存程式 從來源讀取數據。
展開 [進階 ] 以取得更進階的設定。
在目的地索引標籤下設定目的地
選擇您的目的地類型。 這可能是您工作區中的內部一等數據存放區,例如 Lakehouse 或外部數據存放區。 您將使用 Lakehouse 作為範例。
選擇在工作區數據存放區類型中使用 Lakehouse。 選取 [+ 新增],它會巡覽至 Lakehouse 建立頁面。 指定您的 Lakehouse 名稱,然後選取 [ 建立]。
成功建立連線之後,它會帶您回到數據管線頁面。 然後選取 [ 重新 整理],從下拉式清單中擷取您所建立的連接。 如果您之前已建立現有的 Lakehouse 連線,您也可以直接從下拉式清單中選擇現有的 Lakehouse 連線。
指定資料表或設定檔案路徑,以將檔案或資料夾定義為目的地。 在這裡,選取 [ 數據表 ],並指定要寫入數據的數據表。
展開 [進階 ] 以取得更進階的設定。
現在您可以使用這個單一複製活動來儲存資料管線,或繼續設計您的數據管線。
在 [對應] 索引標籤下設定對應
如果您套用的連接器支援對應,您可以移至 [ 對應 ] 索引標籤來設定對應。
選取 [ 匯入 架構] 以匯入您的數據架構。
您可以看到自動對應已顯示。 指定 [ 來源] 資料行和 [目的地 ] 資料行。 如果您在目的地中建立新的資料表,您可以在這裡自定義目的地數據行名稱。 如果您想要將數據寫入現有的目的地數據表,則無法修改現有的 Destination 資料行名稱。 您也可以檢視來源和目的地數據行的類型。
此外,您可以選取 [+ 新增對應 ] 以新增對應、選取 [清除 ] 以清除所有對應設定,然後選取 [ 重 設] 以重設所有對應 [來源 ] 數據行。
在 [設定] 索引標籤底下設定其他設定
[設定] 索引標籤包含效能、預備等的設定。
如需每個設定的描述,請參閱下表。
設定 | 描述 |
---|---|
智慧型輸送量優化 | 指定 以優化輸送量。 您可以選擇: • 自動 • 標準 • 平衡 • 最大值 當您選擇 [ 自動] 時,會根據來源目的地配對和數據模式動態套用最佳設定。 您也可以自定義輸送量,而自定義值可以是 2-256,而較高的值表示更多收益。 |
複製平行處理原則的程度 | 指定數據載入將使用的平行處理原則程度。 |
容錯 | 選取此選項時,您可以忽略複製程式中間發生的一些錯誤。 例如,來源和目的地存放區之間的不相容數據列、在數據移動期間刪除檔案等等。 |
啟用記錄 | 選取此選項時,您可以記錄複製的檔案、略過的檔案和數據列 |
啟用預備 | 指定是否要透過過渡暫存存放區複製數據。 僅針對有益的案例啟用預備。 |
預備帳戶連線 | 選取 [ 啟用預備] 時,將 Azure 記憶體數據源的連線指定為過渡預備存放區。 如果您沒有暫存連線,請選取 [+ 新增 ] 來建立預備連線。 |
在複製活動中設定參數
參數可用來控制管線及其活動的行為。 您可以使用 [新增動態內容 ] 來指定複製活動屬性的參數。 讓我們將 Lakehouse/數據倉儲/KQL 資料庫指定為範例,以瞭解如何使用它。
在來源或目的地中,選取 [工作區] 作為數據存放區類型,並將 Lakehouse 數據倉儲/KQL Database 指定為工作區數據存放區類型之後,請在 Lakehouse/ 或數據倉儲或 KQL Database 的下拉式清單中選取 [新增動態內容]。
在快顯 [新增動態內容] 窗格的 [參數] 索引卷標下,選取 +。
指定參數的名稱,並視需要提供預設值,或者您可以在管線中選取 [執行 ] 之後指定參數的值。
請注意,參數值應該是 Lakehouse/Data Warehouse/KQL Database 物件識別符。 若要取得 Lakehouse/Data Warehouse/KQL Database 對象標識符,請在工作區中開啟 Lakehouse/Data Warehouse/KQL Database,並在 URL 中或之後
/lakehouses/
或/datawarehouses/
/databases/
位於您的 URL 中。Lakehouse 物件識別碼:
資料倉儲物件識別碼:
KQL Database 物件識別碼:
選取 [ 儲存 ] 傳回 [ 新增動態內容 ] 窗格。 然後選取您的參數,使其出現在表達式方塊中。 然後選取確定。 您將回到管線頁面,而且可以看到在 Lakehouse 物件標識碼/數據倉儲對象識別碼/KQL Database 物件識別碼之後指定參數表達式。