使用 Azure Data Factory 將資料載入 Azure Data Lake Storage Gen1
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
Azure Data Lake Storage Gen1 (先前稱為 Azure Data Lake Store) 是容納巨量資料分析工作負載的企業級超大規模存放庫。 Data Lake Storage Gen1 可讓您擷取任何大小、類型和擷取速度的資料。 系統會在單一位置擷取資料以供作業及探勘分析之用。
Azure Data Factory 是完全受控的雲端式資料整合服務。 您可以使用此服務,在建置分析解決方案時於資料湖中填入現有系統的資料並節省時間。
Azure Data Factory 可針對將資料載入到 Data Lake Storage Gen1 的作業提供下列優勢:
- 容易設定:不需要編寫指令碼的直覺式 5 步驟精靈。
- 豐富的資料存放區支援︰一組豐富內部部署和雲端式資料存放區的內部支援。 如需詳細清單,請參閱支援的資料存放區的資料表。
- 安全且符合規範:資料會透過 HTTPS 或 ExpressRoute 來傳送。 具有全域服務,可確保資料絕不會離開地理界限。
- 高效能:將資料載入到 Data Lake Storage Gen1 的速度高達 1 GB/s。 如需詳細資料,請參閱複製活動效能。
此文章將示範如何使用 Data Factory 資料複製工具,將資料從 Amazon S3 載入到 Data Lake Storage Gen1。 您可以依照類似的步驟,從其他類型的資料存放區複製資料。
必要條件
- Azure 訂用帳戶:如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶。
- Data Lake Storage Gen1 帳戶:如果您沒有 Data Lake Storage Gen1 帳戶,請參閱建立 Data Lake Storage Gen1 帳戶中的指示。
- Amazon S3:本文示範如何從 Amazon S3 複製資料。 您可以依照類似的步驟來使用其他資料存放區。
建立資料處理站
若您尚未建立資料處理站,請遵循快速入門:使用 Azure 入口網站和 Azure Data Factory Studio 建立資料處理站中的步驟加以建立。 建立後,請瀏覽至 Azure 入口網站中的資料處理站。
在 [開啟 Azure Data Factory Studio] 圖格上選取 [開啟],在不同的索引標籤中啟動資料整合應用程式。
將資料載入到 Data Lake Storage Gen1
在首頁中,選取 [擷取] 圖格以啟動複製資料工具:
在 [屬性] 頁面中,對 [工作名稱] 欄位指定 [CopyFromAmazonS3ToADLS],然後選取 [下一步]:
在 [來源資料存放區] 頁面中,選取 [+ 建立新連線]:
選取 [Amazon S3],然後選取 [繼續]
在 [指定 Amazon S3 連線] 頁面中,執行下列步驟:
指定 [存取金鑰識別碼] 值。
指定 [祕密存取金鑰] 值。
選取 [完成]。
您會看到新的連線。 選取 [下一步]。
在 [選擇輸入檔案或資料夾] 頁面中,瀏覽至您要複製過去的資料夾和檔案。 選取資料夾/檔案,選取 [選擇],然後選取 [下一步]:
選取 [以遞迴方式複製檔案] 和 [二進位複製] (依原樣複製檔案) 選項來選擇複製行為。 選取 [下一步]:
在 [目的地資料存放區] 頁面中,選取 [+ 建立新連線],然後選取 [Azure Data Lake Storage Gen1],並選取 [繼續]:
在 [新增連結的服務 (Azure Data Lake Storage Gen1)] 頁面中,執行下列步驟:
- 選取您的 Data Lake Storage Gen1 帳戶作為 Data Lake Store 帳戶名稱。
- 指定 [租用戶],然後選取 [完成]。
- 選取 [下一步]。
重要
在此逐步解說中,您會使用 Azure 資源的受控識別來驗證 Data Lake Storage Gen1 帳戶。 請務必依照這些指示執行,以對 MSI 授與 Data Lake Storage Gen1 中的適當權限。
在 [選擇輸出檔案或資料夾] 頁面中,輸入 [copyfroms3] 作為輸出資料夾名稱,然後選取 [下一步]:
在 [設定] 頁面中,選取 [下一步]:
在 [摘要] 頁面中檢閱設定,然後選取 [下一步]:
在部署頁面上選取 [監視] 來監視管線 (工作):
請注意,系統會自動選取左側的 [監視] 索引標籤。 [動作] 資料行中會有連結可供檢視活動執行詳細資料,以及重新執行管線:
若要檢視與此管線執行相關聯的活動執行,請選取 [動作] 資料行中的 [檢視活動執行] 連結。 管線中只有一個活動 (複製活動),所以您只會看到一個項目。 若要切換回 [管線執行] 檢視,請選取頂端的 [管線] 連結。 選取 [重新整理] 可重新整理清單。
若要監視每個複製活動的執行詳細資料,請選取活動監控檢視中 [動作] 底下的 [詳細資料] 連結。 您可以監視的詳細資料包括從來源複製到接收的資料量、資料輸送量、執行步驟與對應的持續期間,以及所使用的設定:
確認已將資料複製到 Data Lake Storage Gen1 帳戶:
相關內容
前往下列文章以了解 Data Lake Storage Gen1 支援: