執行 Azure HDInsight 活動來轉換數據
Data Factory for Microsoft Fabric 中的 Azure HDInsight 活動可讓您協調下列 Azure HDInsight 作業類型:
- 執行Hive查詢
- 叫用 MapReduce 程式
- 執行 Pig 查詢
- 執行Spark程式
- 執行 Hadoop Stream 程式
本文提供逐步解說,說明如何使用 Data Factory 介面建立 Azure HDInsight 活動。
必要條件
若要開始使用,您必須完成下列必要條件:
- 具有作用中訂用帳戶的租用戶帳戶。 免費建立帳戶。
- 建立工作區。
使用UI將 Azure HDInsight (HDI) 活動新增至管線
在您的工作區中建立新的數據管線。
從主畫面卡片搜尋 Azure HDInsight,然後選取該卡片,或從 [活動] 列中選取活動,將其新增至管線畫布。
如果尚未選取,請在管線編輯器畫布上選取新的 Azure HDInsight 活動。
請參閱 [一般設定] 指引,以設定 [一般設定] 索引標籤中找到的選項。
設定 HDI 叢集
選取 [ HDI 叢集] 索引標籤 。然後,您可以選擇現有的或建立新的 HDInsight 連線。
針對 [資源連線],選擇參考 Azure HDInsight 叢集的 Azure Blob 儲存體。 您可以選擇現有的 Blob 存放區,或建立新的 Blob 存放區。
配置設定
選取 [設定] 索引卷標,以查看活動的進階設定。
Azure Data Factory 和 Synapse Analytics HDInsight 鏈接服務中支援的所有進階叢集屬性和動態表達式,現在也支援在 Microsoft Fabric 中 Data Factory 的 Azure HDInsight 活動中,於 UI 的 [進階] 區段下。 這些屬性全都支援使用易用的自定義參數化表達式與動態內容。
叢集類型
若要設定 HDInsight 叢集的設定,請先從可用的選項中選擇其 [類型],包括 Hive、Map Reduce、Pig、Spark 和 Streaming。
Hive
如果您選擇 [類型] 的Hive,活動會執行Hive查詢。 您可以選擇性地指定 參考保存 Hive 類型的記憶體帳戶的腳本連線 。 根據預設,會使用您在 [HDI 叢集] 索引標籤中指定的記憶體連線。 您必須指定要 在 Azure HDInsight 上執行的檔案路徑 。 您可以選擇性地在 [進階] 區段、[偵錯資訊]、[查詢逾時]、[自變數]、[參數] 和 [變數] 中指定更多組態。
Map Reduce
如果您選擇 [對應縮減類型],活動會叫用 Map Reduce 程式。 您可以選擇性地在 Jar 連線中指定參考儲存對應歸納類型的記憶體帳戶。 根據預設,會使用您在 [HDI 叢集] 索引標籤中指定的記憶體連線。 您必須指定要在 Azure HDInsight 上執行的類別名稱和檔案路徑。 您可以選擇性地指定更多組態詳細數據,例如在 [進階] 區段下匯入 Jar 連結庫、偵錯資訊、自變數和參數。
Pig
如果您選擇 [類型] 的 Pig,活動會叫用 Pig 查詢。 您可以選擇性地指定 參考保留 Pig 類型的記憶體帳戶的腳本連線 設定。 根據預設,會使用您在 [HDI 叢集] 索引標籤中指定的記憶體連線。 您必須指定要 在 Azure HDInsight 上執行的檔案路徑 。 您可以選擇性地指定更多組態,例如 [進階] 區段下的偵錯資訊、自變數、參數和變數。
Spark
如果您選擇 [類型] 的Spark,活動會叫用Spark程式。 針對 Spark 類型選取 [腳本] 或 [Jar]。 您可以選擇性地指定 參考保存 Spark 類型的記憶體帳戶的作業連線 。 根據預設,會使用您在 [HDI 叢集] 索引標籤中指定的記憶體連線。 您必須指定要 在 Azure HDInsight 上執行的檔案路徑 。 您可以選擇性地指定更多組態,例如 [進階] 區段底下的類別名稱、Proxy 使用者、偵錯資訊、自變數和Spark組態。
串流
如果您選擇 [類型] 的 [串流],活動會叫用串流程式。 指定 Mapper 和 Reducer 名稱,而且您可以選擇性地指定參考保存串流類型的記憶體帳戶的檔案連線。 根據預設,會使用您在 [HDI 叢集] 索引標籤中指定的記憶體連線。 您必須指定要 在 Azure HDInsight 上執行的 Mapper 和 File 路徑的 File 路徑。 包含 WASB 路徑的輸入和輸出選項。 您可以選擇性地指定更多組態,例如 [進階] 區段底下的偵錯資訊、自變數和參數。
屬性參考
屬性 | 描述 | 必要 |
---|---|---|
type | 針對 Hadoop 資料流活動,活動類型是 HDInsightStreaming | Yes |
mapper | 指定對應程式可執行檔的名稱 | Yes |
reducer | 指定減壓器可執行檔的名稱 | Yes |
結合子 | 指定結合子可執行檔的名稱 | No |
檔案連線 | Azure 儲存體已連結的服務用來儲存要執行之對應程式、結合子和減壓器的參考。 | No |
這裡僅支援 Azure Blob 儲存體 和 ADLS Gen2 連線。 如果您未指定此連線,則會使用 HDInsight 連線中定義的記憶體連線。 | ||
filePath | 提供檔案連接所參考之 Azure 儲存體 中儲存之 Mapper、Combiner 和 Reducer 程式的路徑陣列。 | Yes |
input | 指定對應程式輸入檔案的 WASB 路徑。 | Yes |
output | 指定減壓器輸出檔案的 WASB 路徑。 | Yes |
getDebugInfo | 指定何時將記錄檔複製到 HDInsight 叢集所使用 (或) scriptLinkedService 所指定的 Azure 儲存體。 | No |
允許的值︰None、Always 或 Failure。 預設值:無。 | ||
參數 | 指定 Hadoop 作業的引數陣列。 引數會以命令列引數的方式傳遞給每項工作。 | No |
定義 | 指定參數作為機碼/值組,以供在 Hive 指令碼內參考。 | No |
儲存並執行或排程管線
設定管線所需的任何其他活動之後,請切換至管線編輯器頂端的 [首頁] 索引標籤,然後選取 [儲存] 按鈕以儲存管線。 選取 [執行] 以直接執行,或選取 [排程] 來排程它。 您也可以在這裡檢視執行歷程記錄,或設定其他設定。