Mengubah data menggunakan aktivitas Hadoop Streaming di Azure Data Factory atau Azure Synapse Analytics

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aktivitas Streaming HDInsight di alurAzure Data Factory atau Azure Synapse Analytics menjalankan program Streaming Hadoop di kluster HDInsight sendiri atau sesuai permintaan. Artikel ini membangun artikel aktivitas transformasi data, yang menyajikan gambaran umum tentang transformasi data dan aktivitas transformasi yang didukung.

Untuk mempelajari lebih lanjut, baca artikel pengantar Azure Data Factory dan Azure Synapse Analytics dan lakukan Tutorial: transformasi data sebelum membaca artikel ini.

Menambahkan aktivitas HDInsight Streaming ke alur dengan UI

Untuk menggunakan aktivitas HDInsight Streaming ke alur, jalankan langkah-langkah berikut:

  1. Cari Streaming di panel Aktivitas alur, dan seret aktivitas Streaming ke kanvas alur.

  2. Pilih aktivitas Streaming baru di kanvas jika belum dipilih.

  3. Pilih tab Kluster HDI untuk memilih atau membuat layanan tertaut baru ke kluster HDInsight yang akan digunakan untuk menjalankan aktivitas Streaming.

    Shows the UI for a Streaming activity.

  4. Pilih tab File untuk menentukan nama mapper dan peredam untuk pekerjaan streaming Anda, dan pilih atau buat layanan tertaut baru ke akun Microsoft Azure Storage yang akan mapper, peredam, input, dan file output untuk pekerjaan itu. Anda juga dapat mengonfigurasi detail tingkat lanjut termasuk konfigurasi penelusuran kesalahan, dan argumen serta parameter yang akan diteruskan ke pekerjaan.

    Shows the UI for the File tab for a Streaming activity.

Sampel JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detail sintaks

Properti Deskripsi Wajib
nama Nama aktivitas Ya
description Teks yang menjelaskan untuk apa aktivitas tersebut digunakan Tidak
jenis Untuk Aktivitas Streaming Hadoop, jenis aktivitasnya adalah HDInsightStreaming Ya
linkedServiceName Referensi ke kluster HDInsight yang terdaftar sebagai layanan tertaut. Untuk mempelajari layanan tertaut ini, lihat artikel Layanan tertaut komputasi. Ya
pemeta Menentukan nama mapper yang dapat dieksekusi Ya
pengurangan Menentukan nama dari reducer yang dapat dieksekusi Ya
combiner Menentukan nama combiner yang dapat dieksekusi Tidak
fileLinkedService Lihat Layanan Tertaut Azure Storage yang digunakan untuk menyimpan program Mapper, Combiner, dan Reducer yang dapat dieksekusi. Hanya layanan tertaut Azure Blob Storage dan ADLS Gen2 yang didukung di sini. Jika Anda tidak menentukan Layanan Tertaut ini, Layanan Tertaut Azure Storage yang ditentukan dalam Layanan Tertaut Azure HDInsight akan digunakan. Tidak
filePath Berikan serangkaian jalur ke program Mapper, Combiner, dan Reducer yang disimpan di Azure Storage yang dirujuk oleh fileLinkedService. Jalur tersebut peka huruf besar/kecil. Ya
input Menentukan jalur WASB ke file input untuk Mapper. Ya
output Menentukan jalur WASB ke file output untuk Reducer. Ya
getDebugInfo Menentukan waktu saat file log disalin ke Azure Storage yang digunakan oleh kluster Azure HDInsight (atau) ditentukan oleh scriptLinkedService. Nilai yang diizinkan: None, Always, atau Failure. Nilai default: None. Tidak
arguments Menentukan rangkaian argumen untuk pekerjaan Hadoop. Argumen diteruskan sebagai argumen baris-perintah untuk tiap pekerjaan. Tidak
defines Menentukan parameter sebagai pasangan kunci/nilai untuk referensi dalam skrip Apache Hive. Tidak

Lihat artikel berikut yang menjelaskan cara mentransformasikan data dengan cara lain: