使用 Azure Data Factory 將資料載入 Azure Data Lake 儲存體 Gen2

適用于: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

Azure Data Lake 儲存體 Gen2 是一組專用於巨量資料分析的功能,內建于 Azure Blob 儲存體 中。 它可讓您使用檔案系統和物件儲存架構來與資料進行介面。

Azure Data Factory (ADF) 是完全受控的雲端式資料整合服務。 您可以使用服務來填入湖中豐富的內部部署和雲端式資料存放區中的資料,並在建置分析解決方案時節省時間。 如需支援連接器的詳細清單,請參閱支援的資料存放區 資料表

Azure Data Factory 提供向外延展、受控的資料移動解決方案。 由於 ADF 的向外延展架構,它可以以高輸送量擷取資料。 如需詳細資訊,請參閱 複製活動效能

本文說明如何使用 Data Factory 複製資料工具,將資料從 Amazon Web Services S3 服務 載入 Azure Data Lake 儲存體 Gen2 。 您可以遵循類似的步驟,從其他類型的資料存放區複製資料。

提示

如需將資料從 Azure Data Lake 儲存體 Gen1 複製到 Gen2,請參閱 此特定逐步解說

必要條件

  • Azure 訂用帳戶:如果您沒有 Azure 訂用帳戶,請在開始之前建立 免費帳戶
  • Azure 儲存體已啟用 Data Lake 儲存體 Gen2 的帳戶:如果您沒有儲存體帳戶, 請建立帳戶
  • 包含資料的 S3 貯體 AWS 帳戶:本文說明如何從 Amazon S3 複製資料。 您可以遵循類似的步驟來使用其他資料存放區。

建立資料處理站

  1. 如果您尚未建立資料處理站,請遵循快速入門:使用 Azure 入口網站 和 Azure Data Factory Studio 建立資料處理站中的步驟 來建立資料處理站。 建立之後,請流覽至Azure 入口網站中的資料處理站。

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. 在 [ 開啟 Azure Data Factory Studio ] 圖格上選取 [開啟 ],以在另一個索引標籤中啟動資料整合應用程式。

將資料載入至 Azure Data Lake Storage Gen2

  1. 在 Azure Data Factory 的首頁中,選取 [內嵌 ] 圖格以啟動複製資料工具。

  2. 在 [ 屬性] 頁面中,選擇 [工作類型 ] 下的 [內建複製工作 ],然後在 [工作頻率] 或 [工作排程 ] 下 選擇 [ 立即執行一次 ],然後選取 [ 下一步 ]。

    Properties page

  3. 在 [ 來源資料存放區 ] 頁面中,完成下列步驟:

    1. 選取 + 新增連線。 從連接器資源庫選取 [Amazon S3 ],然後選取 [ 繼續 ]。

      Source data store s3 page

    2. 在 [ 新增連線 ](Amazon S3) 頁面中,執行下列步驟:

      1. 指定 [ 存取金鑰識別碼 ] 值。
      2. 指定秘密 存取金鑰 值。
      3. 選取 [ 測試連線 ] 以驗證設定,然後選取 [ 建立 ]。

      Specify Amazon S3 account

    3. 在 [ 來源資料存放區 ] 頁面中,確定在 連線ion 區塊中選取新建立的 Amazon S3 連線。

    4. 在 [ 檔案或資料夾] 區段中,流覽至您要複製的資料夾和檔案。 選取資料夾/檔案,然後選取 [ 確定 ]。

    5. 檢查 [遞迴 ] 和 [ 二進位複製 ] 選項,以指定複製行為。 選取 [下一步] 。

    Screenshot that shows the source data store page.

  4. 在 [ 目的地資料存放區 ] 頁面中,完成下列步驟。

    1. 選取 [+ 新增連線 ],然後選取 [Azure Data Lake 儲存體 Gen2 ],然後選取 [ 繼續 ]。

      Destination data store page

    2. 在 [ 新增連線 ][Azure Data Lake 儲存體 Gen2] 頁面中,從 [儲存體帳戶名稱] 下拉式清單中選取您的 Data Lake 儲存體 Gen2 支援帳戶,然後選取 [建立 ] 以建立連線。

      Specify Azure Data Lake Storage Gen2 account

    3. 在 [ 目的地資料存放區 ] 頁面中,選取 連線ion 區塊中 新建立的連線 。 然後在 [資料夾路徑 ] 下 ,輸入 copyfroms3 作為輸出檔案夾名稱,然後選取 [ 下一步 ]。 ADF 會在複製期間建立對應的 ADLS Gen2 檔案系統和子資料夾,如果不存在的話。

      Screenshot that shows the destination data store page.

  5. [設定] 頁面中,指定 [任務名稱 ] 欄位的 CopyFromAmazonS3ToADLS ,然後選取 [下一步 ] 以使用預設設定。

    Settings page

  6. 在 [ 摘要] 頁面中,檢閱設定,然後選取 [ 下一步 ]。

    Summary page

  7. 在 [ 部署] 頁面上 ,選取 [監視 ] 以監視管線 (工作)。

  8. 當管線執行順利完成時,您會看到由手動觸發程式觸發的管線執行。 您可以使用 [管線名稱 ] 資料行底下 的連結來檢視活動詳細資料,以及重新執行管線。

    Monitor pipeline runs

  9. 若要查看與管線執行相關聯的活動執行,請選取 [管線名稱 ] 資料行底下的 CopyFromAmazonS3ToADLS 連結。 如需複製作業的詳細資訊,請選取 [ 活動名稱 ] 資料行底下的 [詳細 資料] 連結(眼鏡圖示)。 您可以監視詳細資料,例如從來源複製到接收的資料量、資料輸送量、具有對應持續時間的執行步驟,以及所使用的組態。

    Monitor activity runs

    Monitor activity run details

  10. 若要重新整理檢視,請選取 [ 重新整理 ]。 選取 頂端的 [所有管線執行] 以返回 [管線執行 ] 檢視。

  11. 確認資料已複製到 Data Lake 儲存體 Gen2 帳戶。