使用 Azure Data Factory 將資料從 Data Lake 或資料倉儲遷移至 Azure

適用于: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

如果您想要將 Data Lake 或企業資料倉儲 (EDW) 移轉至 Microsoft Azure,請考慮使用 Azure Data Factory。 Azure Data Factory 非常適合下列案例:

  • 巨量資料工作負載從 Amazon Simple 儲存體 Service (Amazon S3) 或內部部署 Hadoop 分散式檔案系統 (HDFS) 移轉至 Azure
  • EDW 從 Oracle Exadata、Netezza、Teradata 或 Amazon Redshift 移轉至 Azure

Azure Data Factory 可以移動數 PB 的資料以進行 Data Lake 移轉,以及數十 TB 的資料以進行資料倉儲移轉。

為何可以使用 Azure Data Factory 進行資料移轉

  • Azure Data Factory 可透過高效能、復原和延展性,輕鬆地相應增加處理能力,以無伺服器方式移動資料。 而且您只需支付您所使用的費用。 另請注意下列事項:
    • Azure Data Factory 對資料量或檔案數目沒有限制。
    • Azure Data Factory 可以充分利用您的網路和儲存體頻寬,以達到環境中最高的資料移動輸送量。
    • Azure Data Factory 會使用隨用隨付方法,因此您只需支付實際用來執行資料移轉至 Azure 的時間。
  • Azure Data Factory 可以執行一次性歷程記錄載入和排程累加式載入。
  • Azure Data Factory 會使用 Azure 整合執行時間 (IR) 在可公開存取的資料湖和倉儲端點之間移動資料。 它也可以使用自我裝載 IR,在 Azure 虛擬網絡 (VNet) 或防火牆後方移動資料湖和倉儲端點的資料。
  • Azure Data Factory 具有企業級安全性:您可以使用 Windows Installer (MSI) 或服務身分識別進行安全的服務對服務整合,或使用 Azure 金鑰保存庫進行認證管理。
  • Azure Data Factory 提供無程式碼撰寫體驗,以及豐富的內建監視儀表板。 

線上與離線資料移轉

Azure Data Factory 是標準線上資料移轉工具,可透過網路傳輸資料(網際網路、ER 或 VPN)。 使用離線資料移轉時,使用者實際上會將資料傳輸裝置從其組織寄送到 Azure 資料中心。

當您選擇線上和離線移轉方法時,有三個主要考慮:

  • 要移轉的資料大小
  • 網路頻寬
  • 移轉視窗

例如,假設您打算使用 Azure Data Factory 在兩周內完成資料移轉(您的 移轉視窗 )。 請注意下表中的粉紅色/藍色剪下線。 任何指定資料行的最低粉紅色資料格會顯示其移轉視窗最接近但少於兩周的資料大小/網路頻寬配對。 (藍色儲存格中的任何大小/頻寬配對都有兩周以上的線上移轉視窗。

online vs. offline 此表格可協助您根據資料大小和可用網路頻寬,透過線上移轉來判斷您是否能夠透過線上移轉(Azure Data Factory)符合您預期的移轉視窗。 如果線上移轉視窗超過兩周,您會想要使用離線移轉。

注意

藉由使用線上移轉,您可以透過單一工具,實現歷史資料載入和累加摘要。 透過這種方法,您的資料可以在整個移轉期間,在現有存放區和新存放區之間保持同步處理。 這表示您可以使用重新整理的資料,在新的存放區上重建 ETL 邏輯。