在 Azure Data Factory 和 Synapse Analytics 中複製資料工具
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費啟動新的試用版!
「複製資料」工具把將資料內嵌到 Data Lake 的程序 (通常是端對端資料整合案例中的第一步) 簡化並最佳化。 該工具可節省時間,尤其是當您第一次使用服務從資料來源內嵌資料的時候。 使用此工具的一些優點包括:
- 使用「複製資料」工具時,您不需要了解已連結的服務、資料集、管線、活動及觸發程序的服務定義。
- 在將資料載入至 Data Lake 方面,「複製資料」工具的流程是相當直覺式的。 此工具會自動建立所有必要的資源,以將資料從所選來源資料存放區複製到所選目的地/接收資料存放區。
- 「複製資料」工具可協助您驗證撰寫時所內嵌的資料,這有助於避免在開始時於本身發生任何潛在錯誤。
- 如果您需要實作複雜的商務邏輯來將資料載入至 Data Lake,您仍然可以使用 UI 中的個別活動撰寫功能來編輯「複製資料」工具所建立的資源。
下表提供有關何時使用「複製資料」工具與何時使用 UI 中個別活動撰寫功能的比較指引:
複製資料工具 | 個別活動 (複製活動) 撰寫功能 |
---|---|
您想要在無須了解實體 (已連結的服務、資料集、管線等) 的情況下,輕鬆建置資料載入工作。 | 您想要實作複雜且彈性的邏輯來將資料載入 Data Lake 中。 |
您想要將大量資料構件快速載入至 Data Lake 中。 | 您想要將「複製」活動與後續用於清理或處理資料的活動加以鏈結。 |
若要啟動複製資料工具,請按一下 Data Factory 或 Synapse Studio UI 首頁上的 [內嵌] 圖格。
啟動複製資料工具之後,您會看到兩種類型的工作:一種是內建複製工作,另一種是中繼資料驅動複製工作。 內建複製工作會引導您在五分鐘內建立管線來複寫資料,而不需瞭解實體。 中繼資料驅動複製工作可簡化建立參數化管線和外部控制資料表的旅程,以便管理大規模複製大量物件 (例如數千個資料表)。 您可以在中繼資料驅動複製資料中看到更多詳細資料。
將資料載入至 Data Lake 的直覺式流程
此工具讓您只需幾分鐘,即可輕鬆地將資料從各種來源移至目的地:
設定來源的設定。
設定目的地的設定。
設定複製作業的進階設定,例如資料行對應、效能設定及容錯設定。
指定資料載入工作的排程。
檢閱所要建立實體的摘要。
視需要編輯管線,以更新複製活動的設定。
此工具從一開始設計時就已將巨量資料納入構想,可支援多樣化的資料和物件類型。 您可以使用它來移動數百個資料夾、檔案或資料表。 此工具支援自動資料預覽、結構描述擷取及自動對應,也支援資料篩選。
自動資料預覽
您可以預覽來自所選來源資料存放區的部分資料,這可讓您驗證所要複製的資料。 此外,如果來源資料位於文字檔中,「複製資料」工具就會剖析該文字檔,以自動偵測資料列和資料行的分隔符號,以及結構描述。
偵測之後,選取 [預覽資料]:
結構描述擷取和自動對應
在許多情況下,資料來源的結構描述可能會與資料目的地的結構描述不同。 在此案例中,您需要將來源結構描述的資料行對應到目的地結構描述的資料行。
當您在來源與目的地存放區之間對應資料行時,「複製資料」工具會監視並學習您的行為。 在您從來源資料存放區選取一個或一些資料行,並將其對應至目的地結構描述之後,「複製資料」工具就會開始分析您從兩邊選取之資料行配對的模式。 然後,它會將相同的模式套用至其餘資料行。 因此,在按幾下滑鼠之後,您就會看到所有資料行都已以您想要的方式對應至目的地。 如果您不滿意「複製資料」工具所提供的資料行對應選擇,您可以忽略它,然後繼續手動對應資料行。 在此同時,「複製資料」工具會不斷地學習並更新模式,並在最終達到您想要達成的正確資料行對應模式。
注意
將資料從 SQL Server 或 Azure SQL Database 複製到 Azure Synapse Analytics 時,如果目的地存放區中沒有資料表,「複製資料」工具支援使用來源結構描述來自動建立資料表。
篩選資料
您可以篩選來源資料,只選取需要複製到接收資料存放區的資料。 篩選可減少要複製到接收資料存放區的資料,因此可增強複製作業的輸送量。 「複製資料」工具提供一種彈性方式,可藉由使用 SQL 查詢語言來篩選關聯式資料庫中的資料,或篩選 Azure Blob 資料夾中的檔案。
篩選資料庫中的資料
以下螢幕擷取畫面顯示一個用來篩選資料的 SQL 查詢。
篩選 Azure Blob 資料夾中的資料
您可以在資料夾路徑中使用變數,以從資料夾中複製資料。 支援的變數包括︰{year}{month}{day}{hour}及 {minute}。 例如︰inputfolder/{year}/{month}/{day}。
假設您的輸入資料夾格式如下︰
2016/03/01/01
2016/03/01/02
2016/03/01/03
...
按一下 [檔案或資料夾] 的 [瀏覽] 按鈕、瀏覽至其中一個資料夾 (例如 2016->03->01->02),然後按一下 [選擇]。 您應該會在文字方塊中看到 2016/03/01/02。
接著,將 2016 取代為 {year}、03 取代為 {month}、01 取代為 {day},以及 02 取代為 {hour},然後按 Tab 鍵。 當您在 [檔案載入行為] 區段中選取 [累加載入:時間分割的資料夾/檔案名],並在 [屬性] 頁面上選取 [排程] 或 [輪轉] 視窗時,應該會看到下拉式清單來選取這四個變數的格式:
「複製資料」工具會在建立管線時,產生含有運算式、函式及可用來代表 {year}、{month}、{day}、{hour} 及 {minute} 之系統變數的參數。
排程選項
您可以執行複製作業一次,或按照排程 (每小時、每日等) 執行。 這些選項可用於各個不同環境的連接器,包括內部部署、雲端及本機桌面。
一次性複製作業只能進行一次從來源到目的地的資料移動。 它適用於任何規模和任何支援格式的資料。 排程複製可讓您依照指定的週期來複製資料。 在設定排程複製時,您可以使用豐富的設定 (如重試、逾時和警示)。
相關內容
請試試下列使用「複製資料」工具的教學課程: