使用 Azure Data Factory 將資料載入 Azure Data Lake Storage Gen2 中

適用於:Azure Data Factory Azure Synapse Analytics

Azure Data Lake Storage Gen2 是一組巨量資料分析的專屬功能,內建於 Azure Blob 儲存體。 此功能可讓您使用檔案系統和物件儲存範例連接您的資料。

Azure Data Factory (ADF) 是完全受控的雲端式資料整合服務。 您可以使用此服務,在建置分析解決方案時,於 Lake 中置入來自豐富的內部部署集合和雲端式資料存放區的資料,並節省時間。 如需受支援連接器的詳細清單,請參閱支援的資料存放區資料表。

Azure Data Factory 提供可向外延展的受控資料移動解決方案。 由於 ADF 具有相應放大架構,因此能以高輸送量來內嵌資料。 如需詳細資料,請參閱複製活動效能

本文將示範如何使用 Data Factory 資料複製工具,將資料從 Amazon Web Services S3 服務載入 Azure Data Lake Storage Gen2 中。 您可以依照類似的步驟,從其他類型的資料存放區複製資料。

提示

若要將資料從 Azure Data Lake Storage Gen1 複製到 Gen2,請參閱此特定逐步解說

必要條件

  • Azure 訂用帳戶:如果您沒有 Azure 訂用帳戶,請在開始前先建立免費帳戶
  • 已啟用 Data Lake Storage Gen2 的 Azure 儲存體帳戶:如果您還沒有儲存體帳戶,請建立一個帳戶
  • AWS 帳戶,具有包含資料的 S3 貯體:本文示範如何從 Amazon S3 複製資料。 您可以依照類似的步驟來使用其他資料存放區。

建立 Data Factory

  1. 若您尚未建立資料處理站,請遵循快速入門:使用 Azure 入口網站和 Azure Data Factory Studio 建立資料處理站中的步驟加以建立。 建立後,請瀏覽至 Azure 入口網站中的資料處理站。

    Azure Data Factory 的首頁,且有開放式 Azure Data Factory Studio 磚。

  2. 在 [開啟 Azure Data Factory Studio] 圖格上選取 [開啟],在不同的索引標籤中啟動資料整合應用程式。

將資料載入 Azure Data Lake Storage Gen2 中

  1. 在 Azure Data Factory 的首頁上,選取 [內嵌] 圖格以啟動 [複製資料] 工具。

  2. 在 [屬性] 頁面中,選擇 [工作類型] 下的 [內建複製工作],然後在 [工作步調或工作排程] 下選擇 [立即執行一次],然後選取 [下一步]。

    屬性頁面

  3. 在 [來源資料存放區] 頁面中,完成下列步驟:

    1. 選取 [+ 新增連線]。 從連接器資源庫選取 [Amazon S3],然後選取 [繼續]。

      來源資料存放區 s3 頁面

    2. 在 [新增連線 (Amazon S3)] 頁面中,執行下列步驟:

      1. 指定 [存取金鑰識別碼] 值。
      2. 指定 [祕密存取金鑰] 值。
      3. 選取 [測試連線] 以驗證設定,然後選取 [建立]。

      指定 Amazon S3 帳戶

    3. 在 [來源資料存放區] 頁面中,確定已在 [連線] 區塊中選取新建立的 Amazon S3 連線。

    4. 在 [檔案或資料夾] 區段中,瀏覽至您要複製過去的資料夾和檔案。 選取資料夾/檔案,然後選取 [確定]。

    5. 勾選 [以遞迴方式] 和 [二進位複製] 選項來指定複製行為。 選取 [下一步] 。

    顯示 [來源資料存放區] 頁面的螢幕擷取畫面。

  4. 在 [目的地資料存放區] 頁面中,完成下列步驟。

    1. 選取 [+ 新增連線],然後選取 [Azure Data Lake Storage Gen2] 和 [繼續]。

      目的地資料存放區頁面

    2. 在 [新增連線 (Azure Data Lake Storage Gen2)] 頁面中,從 [儲存體帳戶名稱] 下拉式清單中選取支援 Data Lake Storage Gen2 的帳戶,然後選取 [建立] 以建立連線。

      指定 Azure Data Lake Storage Gen2 帳戶

    3. 在 [目的地資料存放區] 頁面中,選取 [連線] 區塊中新建立的連線。 然後在 [資料夾路徑] 底下輸入 copyfroms3 作為輸出資料夾名稱,然後選取 [下一步]。 ADF 將會在複製期間建立對應的 ADLS Gen2 檔案系統和子資料夾 (如果不存在的話)。

      顯示 [目的地資料存放區] 頁面的螢幕擷取畫面。

  5. 在 [設定] 頁面中,針對 [任務名稱] 欄位指定CopyFromAmazonS3ToADLS,然後選取 [下一步] 以使用預設設定。

    設定頁面

  6. 在 [摘要] 頁面中檢閱設定,並選取 [下一步]。

    摘要頁面

  7. 部署頁面上選取 [監視] 來監視管線 (工作)。

  8. 當管線執行成功完成時,您會看到手動觸發程序所觸發的管線執行。 您可以使用 [管線名稱] 資料行下的連結來檢視活動詳細資料,以及重新執行管線。

    監視管線回合

  9. 若要查看與管線執行相關聯的活動執行,請選取 [管線名稱] 資料行下的 [CopyFromAmazonS3ToADLS] 連結。 如需有關複製作業的詳細資料,請選取 [活動名稱] 資料行下的 [詳細資料] 連結 (眼鏡圖示)。 您可以監視的詳細資料包括從來源複製到接收的資料量、資料輸送量、執行步驟與對應的持續期間,以及所使用的組態。

    監視活動回合

    監視活動執行詳細資料

  10. 若要重新整理檢視,請選取 [重新整理]。 選取頂端的 [所有管線執行] 以回到 [管線執行] 檢視。

  11. 確認資料已複製到 Data Lake Storage Gen2 帳戶中。

下一步