在 Azure 中選擇數據管線協調流程技術

大部分巨量數據解決方案都包含在工作流程中封裝的重複數據處理作業。 管線協調器是一種工具,可協助將這些工作流程自動化。 協調器可以排程工作、執行工作流程,以及協調工作之間的相依性。

您的數據管線協調流程有哪些選項?

在 Azure 中,下列服務和工具將符合管線協調流程、控制流程和數據移動的核心需求:

這些服務和工具可以彼此獨立使用,或一起使用來建立混合式解決方案。 例如,Azure Data Factory V2 中的 Integration Runtime (IR) 可以在受控 Azure 計算環境中原生執行 SSIS 套件。 雖然這些服務之間的功能有些重疊,但有一些主要差異。

索引鍵選取準則

若要縮小選擇範圍,請從回答下列問題開始:

  • 您需要巨量數據功能來移動和轉換您的資料嗎? 這通常表示多 GB 到數 TB 的數據。 如果是,請將選項縮小到最適合巨量數據的選項。

  • 您是否需要可大規模運作的受控服務? 如果是,請選取其中一個不受本機處理能力限制的雲端式服務。

  • 您的部分數據來源是否位於內部部署? 如果是,請尋找可使用雲端和內部部署數據源或目的地的選項。

  • 您的源資料是否儲存在 HDFS 檔案系統上的 Blob 記憶體中? 如果是,請選擇支援Hive查詢的選項。

功能矩陣

下表摘要說明功能的主要差異。

一般功能

功能 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight 上的 Oozie
受控 Yes
雲端式 Yes 否(當地) Yes
必要條件 Azure 訂用帳戶 SQL Server Azure 訂用帳戶、HDInsight 叢集
管理工具 Azure 入口網站、PowerShell、CLI、.NET SDK SSMS、PowerShell Bash 殼層、Oozie REST API、Oozie Web UI
定價 按使用量付費 授權/支付功能費用 執行 HDInsight 叢集時不需額外費用

管線功能

功能 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight 上的 Oozie
複製資料 Yes .是 Yes
自訂轉換 Yes Yes 是 (MapReduce、Pig 和 Hive 作業)
Azure 機器學習 評分 Yes 是 (含文稿) No
HDInsight 隨選 No
Azure Batch No
Pig、Hive、MapReduce Yes
Spark No
執行 SSIS 套件 Yes .是 No
控制流程 Yes .是 Yes
存取內部部署資料 Yes .是 No

延展性功能

功能 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight 上的 Oozie
相應增加 No
橫向擴增 No 是 (藉由將背景工作節點新增至叢集)
針對巨量數據優化 Yes

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

下一步