您有時會想要執行從資料湖或企業資料倉儲 (EDW) 到 Fabric OneLake 的大規模資料移轉。 其他時候,您想要將大量資料從不同來源內嵌至 Fabric OneLake,以進行巨量資料分析。 在每個案例中,達到最佳效能和可擴縮性非常重要。
Data Factory 管線提供可內嵌資料的機制,並具有下列優點:
- 處理大量資料
- 高效能
- 符合成本效益
這些優點非常適合想要建置高效能的可調整資料內嵌管線的資料工程師。
閱讀本文後,您將能夠回答下列問題:
- 將複製活動用於資料移轉和資料內嵌案例,可以達到何種層級的效能和可擴縮性?
- 我應該採取哪些步驟來調整複製活動的效能?
- 我可以將哪些效能最佳化用於單一複製活動執行?
- 最佳化複製效能時要考慮哪些其他外部因素?
使用 Data Factory 管線可達到的複製效能和可擴縮性
Data Factory 管線提供無伺服器架構,允許不同層級的平行處理原則。
此架構可讓您開發管線,以將環境的資料移動輸送量最大化。 這些管線充分利用下列資源:
- 來源與目的地資料存放區之間的網路頻寬
- 來源或目的地資料存放區每秒輸入/輸出作業 (IOPS) 和頻寬
這項完整使用表示您可以測量下列資源可用的最小輸送量來預估整體輸送量:
- 來源資料存放區
- 目的地資料存放區
- 來源與目的地資料存放區之間的網路頻寬
複製可在不同層級調整:
- 控制流程可以平行啟動多個複製活動,例如使用 For Each 迴圈。
- 單一複製活動可以利用可調整的計算資源。
- 您可以透過無伺服器方式,針對每個複製活動,將智慧型輸送量最佳化指定為上限。
- 單一複製活動會使用多個執行緒平行在資料存放區中讀取以及寫入資料存放區。
複製效能最佳化功能
此服務提供下列效能最佳化功能:
智慧型輸送量最佳化
智慧型輸送量最佳化可讓服務藉由結合 CPU、記憶體和網路資源分派的因素,以及執行單一複製活動的預期成本,以智慧方式最佳化輸送量。 以智慧方式啟用複製活動執行的允許選項為 [自動]、[標準]、[平衡]、[最大值]。 您也可以指定介於 4 到 256 之間的值。
下方表格列出不同複製案例中建議的值:
| 值 | 描述 |
|---|---|
| Auto | 允許服務根據來源目的地配對和資料模式動態套用最佳輸送量最佳化。 |
| 標準 | 允許服務根據來源目的地配對和資料模式,在標準計算資源下動態套用輸送量最佳化。 |
| 平衡 | 允許服務根據來源目的地配對和資料模式,動態套用可平衡輸送量和可用的計算資源的輸送量最佳化。 |
| 最大值 | 允許服務根據來源目的地配對和資料模式,利用最大可用計算資源,動態套用輸送量最佳化。 |
平行複製
您可以在 [複製活動] 的 [設定] 索引標籤中設定 [複製平行處理程度] 設定,以指出想要複製活動使用的平行處理原則。 請將此屬性視為複製活動內的執行緒數目上限。 執行緒會平行操作。 執行緒會從來源讀取,或寫入至目的地資料存放區。
平行複製與智慧型輸送量最佳化設定為正交。 針對每個複製活動執行,根據預設,服務會根據來源目的地配對和資料模式,動態套用最佳的平行複製設定。
若要控制在裝載資料存放區之機器的負載,或是微調複製效能,您可以覆寫預設值並指定 [複製平行處理程度] 的值。 值必須是大於或等於 1 的整數。 在執行階段,為獲得最佳效能,複製活動會使用小於或等於設定的值。