使用 Azure Data Factory 將資料從資料湖或資料倉儲移轉至 Azure
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory (部分機器翻譯),這是適用於企業的全方位分析解決方案。 Microsoft Fabric (部分機器翻譯) 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用 (部分機器翻譯)!
如果您想要將資料湖或企業資料倉儲 (EDW) 移轉至 Microsoft Azure,則請考慮使用 Azure Data Factory。 Azure Data Factory 非常適合下列案例:
- 從 Amazon Simple Storage Service (Amazon S3) 或內部部署 Hadoop 分散式檔案系統 (HDFS) 到 Azure 的巨量資料工作負載移轉
- 從 Oracle Exadata、Netezza、Teradata 或 Amazon Redshift 到 Azure 的 EDW 移轉
Azure Data Factory 可以移動數 PB 的資料來進行資料湖移轉,以及數十 TB 的資料來進行資料倉儲移轉。
為何 Azure Data Factory 可用於資料移轉
- Azure Data Factory 可以輕鬆地擴大處理能力,以具有高效能、復原和可擴縮性的無伺服器方式來移動資料。 而且僅需就您使用的部分付費。 同時應注意下列項目:
- Azure Data Factory 未限制資料磁碟區或檔案數目。
- Azure Data Factory 可以完全使用您的網路和儲存體頻寬,以達到環境中最高的資料移動輸送量。
- Azure Data Factory 使用隨用隨付方法,因此您只需要支付實際用來執行資料移轉至 Azure 的時間。
- Azure Data Factory 可以同時執行一次性歷史載入和排程的累加式載入。
- Azure Data Factory 使用 Azure 整合執行階段 (IR),以在可公開存取的資料湖與倉儲端點之間移動資料。 其也可以使用自我裝載 IR,以在 Azure 虛擬網路 (VNet) 內部或防火牆後方移動資料湖和倉儲端點的資料。
- Azure Data Factory 具有企業級安全性:您可以使用 Windows Installer (MSI) 或服務身分識別進行安全的服務對服務整合,或使用 Azure Key Vault 進行認證管理。
- Azure Data Factory 提供無程式碼撰寫體驗,以及豐富的內建監視儀表板。
線上與離線資料移轉
Azure Data Factory 是標準線上資料移轉工具,可透過網路 (網際網路、ER 或 VPN) 傳輸資料。 進行離線資料移轉時,使用者實際上會將資料傳輸裝置從其組織寄送到 Azure 資料中心。
當您在線上和離線移轉方式之間進行選擇時,有三個主要考量:
- 要移轉的資料大小
- 網路頻寬
- 移轉時間範圍
例如,假設您打算使用 Azure Data Factory,在兩周 (移轉時間範圍) 內完成資料移轉。 請注意下表中的粉紅色/藍色裁切線。 任何所指定資料行的最低粉紅色資料格會顯示其移轉時間範圍最接近但少於兩周的資料大小/網路頻寬配對。 (藍色儲存格中的任何大小/頻寬配對都會有兩週以上的線上移轉時間範圍。)
此表可協助您根據資料大小和可用網路頻寬,透過線上移轉 (Azure Data Factory) 來判斷是否符合預定的移轉時間範圍。 如果線上移轉時間範圍超過兩週,則您會想要使用離線移轉。
注意
使用線上移轉,即可透過單一工具來端對端地達成歷史資料載入和累加式摘要。 透過這種方式,在整個移轉時間範圍期間,您的資料可以在現有存放區與新存放區之間保持同步。 這表示您可以使用重新整理的資料,在新的存放區上重建 ETL 邏輯。