Mengubah data menggunakan aktivitas Hadoop Apache Hive di Azure Data Factory atau Synapse Analytics

Azure Data Factory Azure Synapse Analytics

Petunjuk

Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.

Aktivitas HDInsight Apache Hive dalam Azure Data Factory atau Synapse Analytics pipeline menjalankan kueri Hive pada cluster HDInsight milik Anda sendiri atau on-demand. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung.

Jika Anda baru menggunakan Azure Data Factory dan Synapse Analytics, baca artikel pengenalan untuk Azure Data Factory atau Synapse Analytics, dan lakukan Tutorial: mengubah data sebelum membaca artikel ini.

Menambahkan aktivitas HDInsight Hive ke alur dengan UI

Untuk menggunakan aktivitas HDInsight Hive untuk Azure Data Lake Analytics dalam aliran, selesaikan langkah-langkah berikut:

  1. Cari Hive di panel Aktivitas Pipeline, dan seret aktivitas Hive ke kanvas pipeline.

  2. Pilih aktivitas Hive baru di kanvas jika belum dipilih.

  3. Pilih tab Kluster HDI untuk memilih atau membuat layanan tertaut baru ke kluster HDInsight yang akan digunakan untuk menjalankan aktivitas Hive.

    Menampilkan UI untuk aktivitas Hive.

  4. Pilih tab Skrip untuk memilih atau membuat layanan tertaut penyimpanan baru, dan jalur di dalam lokasi penyimpanan, yang akan menghosting skrip.

    Menampilkan UI untuk tab Skrip untuk aktivitas Apache Hive.

Sintaks

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detail sintaksis

Properti Deskripsi Wajib
nama Nama aktivitas Ya
deskripsi Teks yang menjelaskan untuk apa aktivitas tersebut digunakan Tidak
jenis Untuk Aktivitas Hive, jenis aktivitasnya adalah HDInsightHive. Ya
NamaLayananTertaut Referensi ke kluster HDInsight yang terdaftar sebagai layanan tertaut. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. Ya
scriptLinkedService Referensi ke Layanan Tertaut Azure Storage yang digunakan untuk menyimpan skrip Apache Hive yang akan dijalankan. Hanya Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan Layanan Tertaut ini, Layanan tertaut Azure Storage yang ditentukan dalam Layanan Tertaut HDInsight digunakan. Tidak
scriptPath Berikan jalur ke file skrip yang disimpan di Azure Storage yang dirujuk oleh scriptLinkedService. Nama file sensitif terhadap huruf besar/kecil. Ya
getDebugInfo Menentukan kapan file log disalin ke Azure Storage yang digunakan oleh kluster HDInsight (atau) yang ditentukan oleh scriptLinkedService. Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None. Tidak
argumen Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris perintah untuk tiap tugas. Tidak
mendefinisikan Menentukan parameter sebagai pasangan kunci/nilai untuk referensi dalam skrip Apache Hive. Tidak
queryTimeout Nilai batas waktu kueri (dalam menit). Berlaku saat kluster HDInsight menyertakan Paket Keamanan Perusahaan yang diaktifkan. Tidak

Catatan

Nilai default untuk queryTimeout adalah 120 menit.

Lihat artikel berikut yang menjelaskan cara mentransformasikan data dengan cara lain: