在 Azure Data Factory 或 Synapse Analytics 中使用 Hadoop Hive 活動轉換資料

適用于: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用于企業的單一分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

Azure Data Factory 或 Synapse Analytics 管線 中的 HDInsight Hive 活動會在您自己的 隨選 HDInsight 叢集上 執行 Hive 查詢。 本文是以資料轉換活動 一文為基礎 ,本文提供資料轉換和支援的轉換活動的一般概觀。

如果您不熟悉 Azure Data Factory 和 Synapse Analytics,請閱讀 Azure Data Factory 或 Synapse Analytics 的簡介文章 ,並執行 教學課程:在閱讀本文之前轉換資料

使用 UI 將 HDInsight Hive 活動新增至管線

若要在管線中使用 Azure Data Lake Analytics 的 HDInsight Hive 活動,請完成下列步驟:

  1. 在管線 [活動] 窗格中搜尋 Hive,並將 Hive 活動拖曳至管線畫布。

  2. 如果尚未選取 Hive 活動,請在畫布上選取新的 Hive 活動。

  3. 選取 [ HDI 叢集 ] 索引標籤,以選取或建立將用來執行 Hive 活動之 HDInsight 叢集的新連結服務。

    Shows the UI for a Hive activity.

  4. 選取 [ 腳本] 索引標籤以選取或建立新的儲存體連結服務,以及將裝載腳本的儲存體位置內的路徑。

    Shows the UI for the Script tab for a Hive activity.

語法

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

語法詳細資料

屬性 描述 必要
NAME 活動的名稱 Yes
description 描述活動用途的文字 No
type 針對 Hive 活動,活動類型為 HDinsightHive Yes
linkedServiceName 已註冊為連結服務的 HDInsight 叢集參考。 若要瞭解此連結服務,請參閱 計算連結服務 一文。 Yes
scriptLinkedService 用來儲存要執行之 Hive 腳本之Azure 儲存體連結服務的參考。 這裡僅 支援Azure Blob 儲存體 ADLS Gen2 連結服務。 如果未指定此連結服務,則會使用 HDInsight 連結服務中定義的Azure 儲存體連結服務。 No
scriptPath 提供 scriptLinkedService 所參考之Azure 儲存體中所儲存腳本檔案的路徑。 檔案名會區分大小寫。 Yes
getDebugInfo 指定記錄檔何時複製到 scriptLinkedService 所指定的 HDInsight 叢集所使用的Azure 儲存體。 允許的值:None、Always 或 Failure。 預設值:無。 No
參數 指定 Hadoop 作業的引數陣列。 引數會以命令列引數的形式傳遞至每個工作。 No
定義 將參數指定為索引鍵/值組,以在 Hive 腳本中參考。 No
queryTimeout 查詢逾時值 (以分鐘為單位)。 適用于已啟用企業安全性套件的 HDInsight 叢集。 No

注意

queryTimeout 的預設值為 120 分鐘。

請參閱下列文章,說明如何以其他方式轉換資料: