在 Azure Data Factory 或 Synapse Analytics 中使用 Hadoop Hive 活動轉換資料
適用于: Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版 !
Azure Data Factory 或 Synapse Analytics 管線 中的 HDInsight Hive 活動會在您自己的 或 隨選 HDInsight 叢集上 執行 Hive 查詢。 本文是以資料轉換活動 一文為基礎 ,本文提供資料轉換和支援的轉換活動的一般概觀。
如果您不熟悉 Azure Data Factory 和 Synapse Analytics,請閱讀 Azure Data Factory 或 Synapse Analytics 的簡介文章 ,並執行 教學課程:在閱讀本文之前轉換資料 。
使用 UI 將 HDInsight Hive 活動新增至管線
若要在管線中使用 Azure Data Lake Analytics 的 HDInsight Hive 活動,請完成下列步驟:
在管線 [活動] 窗格中搜尋 Hive,並將 Hive 活動拖曳至管線畫布。
如果尚未選取 Hive 活動,請在畫布上選取新的 Hive 活動。
選取 [ HDI 叢集 ] 索引標籤,以選取或建立將用來執行 Hive 活動之 HDInsight 叢集的新連結服務。
選取 [ 腳本] 索引標籤以選取或建立新的儲存體連結服務,以及將裝載腳本的儲存體位置內的路徑。
語法
{
"name": "Hive Activity",
"description": "description",
"type": "HDInsightHive",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
語法詳細資料
屬性 | 描述 | 必要 |
---|---|---|
NAME | 活動的名稱 | Yes |
description | 描述活動用途的文字 | No |
type | 針對 Hive 活動,活動類型為 HDinsightHive | Yes |
linkedServiceName | 已註冊為連結服務的 HDInsight 叢集參考。 若要瞭解此連結服務,請參閱 計算連結服務 一文。 | Yes |
scriptLinkedService | 用來儲存要執行之 Hive 腳本之Azure 儲存體連結服務的參考。 這裡僅 支援Azure Blob 儲存體 和 ADLS Gen2 連結服務。 如果未指定此連結服務,則會使用 HDInsight 連結服務中定義的Azure 儲存體連結服務。 | No |
scriptPath | 提供 scriptLinkedService 所參考之Azure 儲存體中所儲存腳本檔案的路徑。 檔案名會區分大小寫。 | Yes |
getDebugInfo | 指定記錄檔何時複製到 scriptLinkedService 所指定的 HDInsight 叢集所使用的Azure 儲存體。 允許的值:None、Always 或 Failure。 預設值:無。 | No |
參數 | 指定 Hadoop 作業的引數陣列。 引數會以命令列引數的形式傳遞至每個工作。 | No |
定義 | 將參數指定為索引鍵/值組,以在 Hive 腳本中參考。 | No |
queryTimeout | 查詢逾時值 (以分鐘為單位)。 適用于已啟用企業安全性套件的 HDInsight 叢集。 | No |
注意
queryTimeout 的預設值為 120 分鐘。
相關內容
請參閱下列文章,說明如何以其他方式轉換資料: