Bagikan melalui


Mengubah data menggunakan aktivitas Hadoop Apache Hive di Azure Data Factory atau Azure Synapse Analytics

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aktivitas HDInsight Hive di Azure Data Factory atau alur Synapse Analytics menjalankan kueri Hive di kluster HDInsight Anda sendiri atau sesuai permintaan. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung.

Jika Anda baru menggunakan Azure Data Factory dan Azure Synapse Analytics, baca artikel pengantar Azure Data Factory atau Azure Synapse Analytics, dan lakukan Tutorial: transformasi data sebelum membaca artikel ini.

Menambahkan aktivitas HDInsight Hive ke alur dengan UI

Untuk menggunakan aktivitas HDInsight Hive untuk Azure Data Lake Analytics dalam alur, selesaikan langkah-langkah berikut:

  1. Cari Hive di panel Aktivitas alur, dan seret aktivitas Hive ke kanvas alur.

  2. Pilih aktivitas Hive baru di kanvas jika belum dipilih.

  3. Pilih tab Kluster HDI untuk memilih atau membuat layanan tertaut baru ke kluster HDInsight yang akan digunakan untuk menjalankan aktivitas Hive.

    Menampilkan UI untuk aktivitas Apache Hive.

  4. Pilih tab Skrip untuk memilih atau membuat layanan tertaut penyimpanan baru, dan jalur di dalam lokasi penyimpanan, yang akan menghosting skrip.

    Menampilkan UI untuk tab Skrip untuk aktivitas Apache Hive.

Sintaks

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detail sintaks

Properti Deskripsi Wajib
nama Nama aktivitas Ya
description Teks yang menjelaskan untuk apa aktivitas tersebut digunakan No
jenis Untuk Aktivitas Apache Hive, jenis aktivitasnya adalah HDinsightHive Ya
linkedServiceName Referensi ke kluster HDInsight yang terdaftar sebagai layanan tertaut. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. Ya
scriptLinkedService Referensi ke Layanan Tertaut Azure Storage yang digunakan untuk menyimpan skrip Apache Hive untuk dieksekusi. Hanya layanan tertaut Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan Layanan Tertaut ini, Layanan Tertaut Azure Storage yang ditentukan dalam Layanan Tertaut Azure HDInsight akan digunakan. No
scriptPath Berikan jalur ke file skrip yang disimpan di Azure Storage yang dirujuk sebagai scriptLinkedService. Nama file peka huruf besar/kecil. Ya
getDebugInfo Menentukan waktu saat file log disalin ke Azure Storage yang digunakan oleh kluster Azure HDInsight (atau) ditentukan oleh scriptLinkedService. Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None. No
arguments Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris-perintah untuk tiap pekerjaan. No
defines Menentukan parameter sebagai pasangan kunci/nilai untuk referensi dalam skrip Apache Hive. No
queryTimeout Nilai batas waktu kueri (dalam menit). Berlaku saat kluster HDInsight menyertakan Paket Keamanan Perusahaan yang diaktifkan. No

Catatan

Nilai default untuk queryTimeout adalah 120 menit.

Lihat artikel berikut yang menjelaskan cara mentransformasikan data dengan cara lain: