Mengubah data menggunakan aktivitas Hadoop MapReduce di Azure Data Factory atau Azure Synapse Analytics

Artikel
12/09/2023

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aktivitas HDInsight MapReduce dalam alur Azure Data Factory atau Azure Synapse Analytics menjalankan program MapReduce di kluster HDInsight milik Anda atau sesuai permintaan. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung.

Untuk mempelajari lebih lanjut, baca artikel pengantar Azure Data Factory dan Azure Synapse Analytics, dan lakukan Tutorial: transformasi data sebelum membaca artikel ini.

Lihat Pig dan Apache Hive untuk mengetahui detail tentang cara menjalankan skrip Pig/Apache Hive di kluster HDInsight dari alur dengan menggunakan aktivitas HDInsight Pig dan Apache Hive.

Menambahkan aktivitas HDInsight MapReduce ke saluran dengan UI

Untuk menggunakan aktivitas HDInsight MapReduce ke saluran, selesaikan langkah-langkah berikut:

Telusuri MapReduce di panel Aktivitas saluran, dan seret aktivitas MapReduce ke kanvas saluran.
Pilih aktivitas MapReduce baru di kanvas jika belum dipilih.
Pilih tab Kluster HDI untuk memilih atau membuat layanan tertaut baru ke kluster HDInsight yang akan digunakan untuk menjalankan aktivitas MapReduce.
Pilih tab Guci untuk memilih atau membuat layanan tertaut Guci baru ke akun Azure Storage yang akan menghosting skrip Anda. Tentukan nama kelas yang akan dieksekusi di sana, dan jalur file di dalam lokasi penyimpanan. Anda juga dapat mengonfigurasi detail tingkat lanjut termasuk lokasi lib Jar, konfigurasi penelusuran kesalahan, dan argumen serta parameter yang akan diteruskan ke skrip.

Sintaks

{
    "name": "Map Reduce Activity",
    "description": "Description",
    "type": "HDInsightMapReduce",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "className": "org.myorg.SampleClass",
        "jarLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "jarFilePath": "MyAzureStorage/jars/sample.jar",
        "getDebugInfo": "Failure",
        "arguments": [
            "-SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detail sintaks

Properti	Deskripsi	Wajib
nama	Nama aktivitas	Ya
description	Teks yang menjelaskan untuk apa aktivitas tersebut digunakan	Tidak
jenis	Untuk Aktivitas MapReduce, jenis aktivitasnya adalah HDinsightMapReduce	Ya
linkedServiceName	Referensi ke kluster HDInsight yang terdaftar sebagai layanan tertaut. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi.	Ya
className	Nama Kelas yang akan dieksekusi	Ya
jarLinkedService	Referensi ke Layanan Tertaut Azure Storage yang digunakan untuk menyimpan file Jar. Hanya layanan tertaut Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan Layanan Tertaut ini, Layanan Tertaut Azure Storage yang ditentukan dalam Layanan Tertaut Azure HDInsight akan digunakan.	Tidak
jarFilePath	Masukkan jalur ke file Jar yang disimpan di Azure Storage yang dirujuk oleh jarLinkedService. Nama file peka huruf besar/kecil.	Ya
jarlibs	String array jalur ke file pustaka Jar yang direferensikan oleh pekerjaan yang disimpan di Azure Storage yang didefinisikan dalam jarLinkedService. Nama file peka huruf besar/kecil.	Tidak
getDebugInfo	Menentukan waktu saat file log disalin ke Azure Storage yang digunakan oleh kluster Azure HDInsight (atau) ditentukan oleh jarLinkedService. Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None.	Tidak
arguments	Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris-perintah untuk tiap pekerjaan.	Tidak
defines	Menentukan parameter sebagai pasangan kunci/nilai untuk referensi dalam skrip Apache Hive.	Tidak

Contoh

Anda dapat menggunakan Aktivitas MapReduce HDInsight untuk menjalankan file jar MapReduce pada kluster HDInsight. Dalam contoh definisi JSON alur berikut, Aktivitas HDInsight dikonfigurasikan untuk menjalankan file Mahout JAR.

{
    "name": "MapReduce Activity for Mahout",
    "description": "Custom MapReduce to generate Mahout result",
    "type": "HDInsightMapReduce",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "className": "org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob",
        "jarLinkedService": {
            "referenceName": "MyStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "jarFilePath": "adfsamples/Mahout/jars/mahout-examples-0.9.0.2.2.7.1-34.jar",
        "arguments": [
            "-s",
            "SIMILARITY_LOGLIKELIHOOD",
            "--input",
            "wasb://adfsamples@spestore.blob.core.windows.net/Mahout/input",
            "--output",
            "wasb://adfsamples@spestore.blob.core.windows.net/Mahout/output/",
            "--maxSimilaritiesPerItem",
            "500",
            "--tempDir",
            "wasb://adfsamples@spestore.blob.core.windows.net/Mahout/temp/mahout"
        ]
    }
}

Anda dapat menentukan argumen untuk program MapReduce di bagian argumen. Pada runtime, Anda akan melihat beberapa argumen tambahan (misalnya: mapreduce.job.tags) dari kerangka kerja MapReduce. Untuk membedakan argumen Anda dengan argumen MapReduce, pertimbangkan untuk menggunakan opsi dan nilai sebagai argumen seperti yang ditunjukkan dalam contoh berikut (-s, --input, --output dll., adalah opsi yang langsung diikuti oleh nilainya).

Lihat artikel berikut yang menjelaskan cara mentransformasikan data dengan cara lain:

Mengubah data menggunakan aktivitas Hadoop MapReduce di Azure Data Factory atau Azure Synapse Analytics

Menambahkan aktivitas HDInsight MapReduce ke saluran dengan UI

Sintaks

Detail sintaks

Contoh

Konten terkait

Sumber Daya Tambahan: