複製活動效能和延展性指南
適用于: Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版 !
有時候您想要執行從 Data Lake 或企業資料倉儲 (EDW) 到 Azure 的大規模資料移轉。 其他時候,您想要將大量資料從不同的來源擷取到 Azure,以進行巨量資料分析。 在每個案例中,達到最佳效能和延展性非常重要。
Azure Data Factory 和 Azure Synapse Analytics 管線提供擷取資料的機制,具有下列優點:
- 處理大量資料
- 高效能
- 符合成本效益
這些優點非常適合想要建置高效能的可調整資料擷取管線的資料工程師。
閱讀本文之後,您將能夠回答下列問題:
- 我可以使用複製活動來擷取資料及資料擷取案例,達到何種層級的效能和延展性?
- 我應該採取哪些步驟來調整複製活動的效能?
- 我可以針對單一複製活動執行使用哪些效能優化?
- 優化複製效能時需要考慮哪些其他外部因素?
注意
如果您不熟悉一般複製活動,請先參閱 複製活動概觀 ,再閱讀本文。
使用 Azure Data Factory 和 Synapse 管線複製可達到的效能和延展性
Azure Data Factory 和 Synapse 管線提供無伺服器架構,可讓不同層級的平行處理原則。
此架構可讓您開發管線,以將環境的資料移動輸送量最大化。 這些管線會充分利用下列資源:
- 來源和目的地資料存放區之間的網路頻寬
- 來源或目的地資料存放區每秒輸入/輸出作業 (IOPS) 和頻寬
此完整使用率表示您可以測量下列資源可用的最小輸送量,以估計整體輸送量:
- 來源資料存放區
- 目的地資料存放區
- 來源和目的地資料存放區之間的網路頻寬
下表顯示資料移動持續時間的計算。 每個資料格中的持續時間是根據指定的網路和資料存放區頻寬和指定的資料承載大小來計算。
注意
以下提供的持續時間旨在使用複製效能優化功能 中所述 的一或多項效能優化技術,代表端對端資料整合解決方案的可達成效能,包括使用 ForEach 分割和繁衍多個並行複製活動。 建議您遵循效能微調步驟中所述 的步驟 ,將特定資料集和系統組態的複製效能優化。 您應該使用效能微調測試中取得的數位,以進行生產部署規劃、容量規劃和計費預測。
資料大小 / bandwidth |
50 Mbps | 100 Mbps | 500 Mbps | 1 Gbps | 5 Gbps | 10 Gbps | 50 Gbps |
---|---|---|---|---|---|---|---|
1 GB | 2.7 分鐘 | 1.4 分鐘 | 0.3 分鐘 | 0.1 分鐘 | 0.03 分鐘 | 0.01 分鐘 | 0.0 分鐘 |
10 GB | 27.3 分鐘 | 13.7 分鐘 | 2.7 分鐘 | 1.3 分鐘 | 0.3 分鐘 | 0.1 分鐘 | 0.03 分鐘 |
100 GB | 4.6 小時 | 2.3 小時 | 0.5 小時 | 0.2 小時 | 0.05 小時 | 0.02 小時 | 0.0 小時 |
1 TB | 46.6 小時 | 23.3 小時 | 4.7 小時 | 2.3 小時 | 0.5 小時 | 0.2 小時 | 0.05 小時 |
10 TB | 19.4 天 | 9.7 天 | 1.9 天 | 0.9 天 | 0.2 天 | 0.1 天 | 0.02 天 |
100 TB | 194.2 天 | 97.1 天 | 19.4 天 | 9.7 天 | 1.9 天 | 1 天 | 0.2 天 |
1 PB | 64.7 mo | 32.4 mo | 6.5 mo | 3.2 mo | 0.6 mo | 0.3 mo | 0.06 mo |
10 PB | 647.3 mo | 323.6 mo | 64.7 mo | 31.6 mo | 6.5 mo | 3.2 mo | 0.6 mo |
複製可在不同層級進行調整:
控制流程可以平行啟動多個複製活動,例如使用 For Each 迴圈 。
單一複製活動可以利用可調整的計算資源。
- 使用 Azure 整合執行時間 (IR) 時,您可以透過無伺服器方式為每個複製活動指定 最多 256 個數據整合單位 (DIU )。
- 使用自我裝載 IR 時,您可以採用下列其中一種方法:
- 手動相應增加電腦。
- 向外延展至多部機器( 最多 4 個節點 ),而單一複製活動會將其檔案集分割到所有節點。
單一複製活動會使用多個執行緒 平行 讀取和寫入資料存放區。
效能微調步驟
請採取下列步驟,使用複製活動來調整服務的效能:
挑選測試資料集並建立基準。
在開發期間,針對代表性資料範例使用複製活動來測試您的管線。 您選擇的資料集應該會沿著下列屬性來代表一般資料模式:
- 資料夾結構
- 檔案模式
- 資料結構描述
而且您的資料集應該足以評估複製效能。 複製活動至少需要 10 分鐘的時間才能完成。 在複製活動監視 之後 收集執行詳細資料和效能特性。
如何最大化單一複製活動的 效能:
建議您先使用單一複製活動將效能最大化。
如果在 Azure 整合執行時間上 執行複製活動:
如果在自我裝載 整合執行時間上 執行複製活動:
我們建議您使用專用機器來裝載 IR。 電腦應該與裝載資料存放區的伺服器分開。 從平行複製 設定的 預設值開始,並使用自我裝載 IR 的單一節點。
執行效能測試回合。 記下已達成的效能。 包含所使用的實際值,例如 DIU 和平行複製。 請參閱 複製活動監視 ,以瞭解如何收集所使用的執行結果和效能設定。 瞭解如何 針對複製活動效能 進行疑難排解,以找出並解決瓶頸。
遵循疑難排解和微調指引,反復執行其他效能測試回合。 一旦單一複製活動執行無法達到更好的輸送量,請考慮是否要同時執行多個複本來最大化匯總輸送量。 此選項會在下一個編號的專案符號中討論。
如何同時執行多個複本來最大化匯總輸送量:
現在您已將單一複製活動的效能最大化。 如果您尚未達到環境的輸送量上限,您可以平行執行多個複製活動。 您可以使用控制流程建構平行執行。 其中一個這類建構是 For Each 迴圈 。 如需詳細資訊,請參閱下列有關解決方案範本的文章:
展開整個資料集的組態。
當您對執行結果和效能感到滿意時,您可以展開定義和管線來涵蓋整個資料集。
針對複製活動效能進行疑難排解
請遵循效能微調步驟 來規劃和執行案例的效能測試。 並瞭解如何從 針對複製活動效能 進行疑難排解,針對每個複製活動執行的效能問題進行疑難排解。
複製效能優化功能
此服務提供下列效能優化功能:
資料整合單位
資料整合單位 (DIU) 是一個量值,代表 Azure Data Factory 和 Synapse 管線中單一單位的功率。 電源是 CPU、記憶體和網路資源配置的組合。 DIU 僅適用于 Azure 整合執行時間 。 DIU 不適用於 自我裝載整合執行時間 。 在此深入了解。
自我裝載整合執行時間延展性
您可能想要裝載增加的並行工作負載。 或者,您可能想要在目前的工作負載層級達到更高的效能。 您可以透過下列方法來增強處理規模:
- 您可以增加可在節點上執行的並行作業 數目 ,以相應 增加 自我裝載 IR。
只有在節點的處理器和記憶體不足時,相應增加才有效。 - 您可以藉由新增更多節點(電腦)來相應放大 自我裝載 IR。
如需詳細資訊,請參閱
平行複製
您可以設定 parallelCopies
屬性,指出您想要複製活動使用的平行處理原則。 請將此屬性視為複製活動內線程數目上限。 執行緒會以平行方式運作。 執行緒會從來源讀取,或寫入至接收資料存放區。 深入了解。
分段複製
資料複製作業可以將資料 直接 傳送至接收資料存放區。 或者,您可以選擇使用 Blob 儲存體作為 過渡暫存 存放區。 深入了解。
相關內容
請參閱其他複製活動文章: