複製活動效能和可擴縮性指南

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

您有時會想要執行從資料湖或企業資料倉儲 (EDW) 到 Azure 的大規模資料移轉。 其他時候,您想要將大量資料從不同來源內嵌至 Azure,以進行巨量資料分析。 在每個案例中,達到最佳效能和可擴縮性非常重要。

Azure Data Factory 和 Azure Synapse Analytics 管線提供可內嵌資料的機制,並具有下列優點:

  • 處理大量資料
  • 高效能
  • 符合成本效益

這些優點非常適合想要建置高效能的可調整資料內嵌管線的資料工程師。

閱讀本文後,您將能夠回答下列問題:

  • 將複製活動用於資料移轉和資料內嵌案例,可以達到何種層級的效能和可擴縮性?
  • 我應該採取哪些步驟來調整複製活動的效能?
  • 我可以將哪些效能最佳化用於單一複製活動執行?
  • 最佳化複製效能時要考慮哪些其他外部因素?

注意

如果您總體而言不熟悉複製活動,則請先參閱複製活動概觀,再閱讀本文。

使用 Azure Data Factory 和 Synapse 管線可達到的複製效能和可擴縮性

Azure Data Factory 和 Synapse 管線提供無伺服器架構,以允許不同層級的平行處理原則。

此架構可讓您開發管線,以將環境的資料移動輸送量最大化。 這些管線充分利用下列資源:

  • 來源與目的地資料存放區之間的網路頻寬
  • 來源或目的地資料存放區每秒輸入/輸出作業 (IOPS) 和頻寬

這項完整使用表示您可以測量下列資源可用的最小輸送量來預估整體輸送量:

  • 來源資料存放區
  • 目的地資料存放區
  • 來源與目的地資料存放區之間的網路頻寬

下表顯示資料移動持續時間的計算。 每個儲存格中持續時間的計算根據是所指定的網路和資料存放區頻寬以及所指定的資料承載大小。

注意

下面所提供的持續時間旨在使用 複製效能最佳化功能中所述的一或多個效能最佳化技術,來代表可在端對端資料整合解決方案中達到的效能,包括使用 ForEach 來分割和繁衍多個並行複製活動。 建議您遵循效能微調步驟中所配置的步驟,將特定資料集和系統設定的複製效能最佳化。 您應該使用效能微調測試中所取得的數字,來進行生產部署規劃、容量規劃和計費預測。

 

資料大小/
bandwidth
50 Mbps 100 Mbps 500 Mbps 1 Gbps 5 Gbps 10 Gbps 50 Gbps
1 GB 2.7 分鐘 1.4 分鐘 0.3 分鐘 0.1 分鐘 0.03 分鐘 0.01 分鐘 0.0 分鐘
10 GB 27.3 分鐘 13.7 分鐘 2.7 分鐘 1.3 分鐘 0.3 分鐘 0.1 分鐘 0.03 分鐘
100 GB 4.6 小時 2.3 小時 0.5 小時 0.2 小時 0.05 小時 0.02 小時 0.0 小時
1 TB 46.6 小時 23.3 小時 4.7 小時 2.3 小時 0.5 小時 0.2 小時 0.05 小時
10 TB 19.4 天 9.7 天 1.9 天 0.9 天 0.2 天 0.1 天 0.02 天
100 TB 194.2 天 97.1 天 19.4 天 9.7 天 1.9 天 1 天 0.2 天
1 PB 64.7 個月 32.4 個月 6.5 個月 3.2 個月 0.6 個月 0.3 個月 0.06 個月
10 PB 647.3 個月 323.6 個月 64.7 個月 31.6 個月 6.5 個月 3.2 個月 0.6 個月

複製可在不同層級調整:

How copy scales

  • 控制流程可以平行啟動多個複製活動,例如使用 For Each 迴圈

  • 單一複製活動可以利用可調整的計算資源。

    • 使用 Azure 整合執行階段 (IR) 時,您可以透過無伺服器方式為每個複製活動指定最多 256 個資料整合單位 (DIU)
    • 使用自我裝載 IR 時,您可以採用下列任一種方式:
      • 手動擴大機器。
      • 擴增至多部機器 (最多 4 個節點),而單一複製活動會將其檔案集分割至所有節點。
  • 單一複製活動會使用多個執行緒平行在資料存放區中讀取和寫入。

效能微調步驟

採取下列步驟,以使用複製活動來調整服務效能:

  1. 挑選測試資料集,並建立基準。

    在開發期間,對具代表性的資料樣本使用複製活動,以測試您的管線。 您選擇的資料集應該代表下列屬性的一般資料模式:

    • 資料夾結構
    • 檔案模式
    • 資料結構描述

    而且您的資料集應該夠大,足以評估複製效能。 不錯的大小指的是可讓複製活動至少需要 10 分鐘的時間完成。 遵循複製活動監視,以收集執行詳細資料和效能特性。

  2. 如何最大化單一複製活動的效能

    建議您先使用單一複製活動將效能最大化。

    • 如果正在「Azure」整合執行階段上執行複製活動:

      資料整合單位 (DIU)平行複製設定的預設值開始。

    • 如果正在「自我裝載」整合執行階段上執行複製活動:

      建議您使用專用機器來裝載 IR。 機器應該與裝載資料存放區的伺服器分開。 從平行複製設定的預設值並使用自我裝載 IR 的單一節點開始。

    執行效能測試回合。 請記下所達到的效能。 包括使用的實際值,例如 DIU 和平行複製。 請參閱複製活動監視,以了解如何收集所使用的執行結果和效能設定。 了解如何針對複製活動效能進行疑難排解,以識別並解決瓶頸。

    遵循疑難排解和微調指導,以逐一執行其他效能測試回合。 單一複製活動執行無法達到更好的輸送量之後,請考慮是否同時執行多個複製來最大化彙總輸送量。 此選項會在下一個編號的項目符號中進行討論。

  3. 如何同時執行多個複製,以將彙總輸送量最大化:

    現在,您已將單一複製活動的效能最大化。 如果您尚未達到環境的輸送量上限,則可以平行執行多個複製活動。 您可以使用控制流程建構來平行執行。 其中一個這類建構是 For Each 迴圈。 如需詳細資訊,請參閱下列有關解決方案範本的文章:

  4. 當您滿意執行結果和效能時,可以將定義和管線擴展為涵蓋整個資料集。

對複製活動效能進行疑難排解

遵循效能微調步驟,為您的案例規劃和執行效能測試。 並從針對複製活動效能進行疑難排解中了解如何針對每個複製活動執行的效能問題進行疑難排解。

複製效能最佳化功能

此服務提供下列效能最佳化功能:

資料整合單位

資料整合單位 (DIU) 是一個量值,代表 Azure Data Factory 和 Synapse 管線中單一單位的能力。 能力是 CPU、記憶體與網路資源配置的組合。 DIU 僅適用於 Azure 整合執行階段。 DIU 不適用於自我裝載整合執行階段在此深入了解

自我裝載整合執行階段延展性

您可能想要裝載增加的並行工作負載。 或者,您可能想要在目前的工作負載等級中達到更高的效能。 您可以透過下列方式來增強處理規模:

  • 您可以增加可在節點上執行的並行工作數目,來「擴大」自我裝載 IR。
    只有在未完全利用節點的處理器和記憶體時,擴大才有作用。
  • 您可以新增更多節點 (機器),來「擴增」自我裝載 IR。

如需詳細資訊,請參閱

平行複製

您可以設定 parallelCopies 屬性,以指出您想要複製活動使用的平行處理原則。 請將此屬性視為複製活動內的執行緒數目上限。 執行緒會平行操作。 執行緒會從來源讀取,或寫入至接收器資料存放區。 深入了解

分段複製

資料複製作業可以將資料「直接」傳送至接收器資料存放區。 或者,您可以選擇使用 Blob 儲存體作為「過渡期暫存」存放區。 深入了解

請參閱其他複製活動文章: