Mentransformasi data di Azure Virtual Network menggunakan aktivitas Apache Hive di Azure Data Factory menggunakan portal Microsoft Azure

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam tutorial ini, Anda menggunakan portal Microsoft Azure untuk membuat alur Azure Data Factory yang mengubah data menggunakan Aktivitas Apache Hive pada kluster Azure HDInsight yang berada di Azure Virtual Network (VNet). Anda akan melakukan langkah-langkah berikut dalam tutorial ini:

  • Membuat pabrik data.
  • Membuat runtime integrasi yang dihost sendiri
  • Membuat Microsoft Azure Storage dan layanan tertaut Microsoft Azure HDInsight
  • Membuat alur pipa dengan aktivitas Apache Hive.
  • Memicu eksekusi alur.
  • Memantau eksekusi alur
  • Verifikasi output

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Prasyarat

Catatan

Sebaiknya Anda menggunakan modul Azure Az PowerShell untuk berinteraksi dengan Azure. Lihat Menginstal Azure PowerShell untuk memulai. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Memigrasikan Azure PowerShell dari AzureRM ke Az.

  • Akun Azure Storage. Anda membuat skrip Apache Hive, dan mengunggahnya ke penyimpanan Azure. Output dari skrip Apache Hive disimpan di akun penyimpanan ini. Dalam sampel ini, kluster Microsoft Azure HDInsight menggunakan akun Microsoft Azure Storage ini sebagai penyimpanan utama.

  • Azure Jaringan Virtual. Jika Anda tidak memiliki jaringan virtual Azure, buat dengan mengikuti instruksi ini. Dalam sampel ini, Microsoft Azure HDInsight berada dalam Microsoft Azure Virtual Network Azure. Berikut adalah sampel konfigurasi Microsoft Azure Virtual Network.

    Create virtual network

  • Kluster HDInsight. Buat kluster Microsoft Azure HDInsight dan gabungkan ke jaringan virtual yang Anda buat di langkah sebelumnya dengan mengikuti artikel ini: Memperluas Azure Microsoft Azure HDInsight menggunakan Microsoft Azure Virtual Network. Berikut adalah sampel konfigurasi Microsoft Azure HDInsight dalam jaringan virtual.

    HDInsight in a virtual network

  • Azure PowerShell. Ikuti instruksi di Cara menginstal dan mengonfigurasi Azure PowerShell.

  • Mesin virtual. Buat komputer virtual mesin Azure Virtual dan bergabunglah ke jaringan virtual yang sama yang berisi kluster Microsoft Azure HDInsight Anda. Untuk detailnya, lihat Cara membuat mesin virtual.

Unggah skrip Apache Hive ke akun Azure Blob Storage Anda

  1. Buat file Apache Hive SQL bernama hivescript.hql dengan konten berikut:

    DROP TABLE IF EXISTS HiveSampleOut; 
    CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
    STORED AS TEXTFILE LOCATION '${hiveconf:Output}';
    
    INSERT OVERWRITE TABLE HiveSampleOut
    Select 
        clientid,
        market,
        devicemodel,
        state
    FROM hivesampletable
    
  2. Di Azure Blob Storage Anda, buat kontainer bernama adftutorial jika tidak ada.

  3. Buat folder bernama hivescripts.

  4. Unggah file hivescript.hql ke subfolder hivescripts.

Membuat pabrik data

  1. Apabila Anda belum membuat pabrik data, ikuti langkah-langkah di Mulai Cepat: Membuat pabrik data menggunakan portal Azure dan Studio Azure Data Factory untuk membuatnya. Setelah membuat pabrik data, telusuri ke pabrik data di portal Azure.

    Screenshot of home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Pilih Buka pada petak peta Buka Azure Data Factory Studio untuk meluncurkan Aplikasi Integrasi Data di tab terpisah.

Membuat runtime integrasi yang dihost sendiri

Karena klaster Hadoop berada di dalam jaringan virtual, Anda perlu menginstal runtime integrasi yang dihost sendiri (IR) dalam jaringan virtual yang sama. Di bagian ini, Anda membuat komputer virtual baru, bergabung dengan jaringan virtual yang sama, dan menginstal runtime integrasi yang dihost sendiri di atasnya. IR yang dihost sendiri memungkinkan layanan Azure Data Factory untuk mengirimkan permintaan pemrosesan ke layanan komputasi seperti HDInsight di dalam jaringan virtual. Ini juga memungkinkan Anda untuk memindahkan data ke/dari penyimpanan data di dalam jaringan virtual ke Azure. Anda menggunakan runtime integrasi yang dihost sendiri saat penyimpanan data atau komputasi berada di lingkungan lokal juga.

  1. Di antarmuka pengguna Azure Data Factory, klik Koneksi di bagian bawah jendela, beralih ke tab Runtime Integrasi, dan klik tombol+ Baru pada toolbar.

    New integration runtime menu

  2. Di jendela Penyiapan Runtime Integrasi, pilih Lakukan pergerakan data dan kirim aktivitas ke komputasi eksternal, dan klik Lanjutkan.

    Select perform data movement and dispatch activities option

  3. Pilih Jaringan Privat, dan klik Berikutnya.

    Select private network

  4. Masukkan MySelfHostedIR untuk Nama, lalu klik Berikutnya.

    Specify integration runtime name

  5. Salin kunci autentikasi untuk runtime integrasi dengan mengeklik tombol salin, dan simpan. Biarkan jendelanya tetap terbuka. Anda menggunakan kunci ini untuk mendaftarkan runtime integrasi yang terinstal di mesin virtual.

    Copy authentication key

Instal runtime integrasi pada komputer virtual

  1. Di komputer virtual Azure, unduh runtime integrasi yang dihosting sendiri. Gunakan kunci autentikasi kunci yang diperoleh pada langkah sebelumnya untuk mendaftarkan runtime integrasi yang dihost sendiri secara manual.

    Register integration runtime

  2. Anda melihat pesan berikut ketika runtime integrasi yang dihost sendiri berhasil didaftarkan.

    Registered successfully

  3. Klik Luncurkan Microsoft Endpoint Configuration Manager. Anda akan melihat halaman berikut saat node tersambung ke layanan cloud:

    Node is connected

Runtime integrasi yang dihosti sendiri di antarmuka pengguna Azure Data Factory

  1. Di antarmuka pengguna Azure Data Factory, Anda akan melihat nama komputer virtual yang dihost sendiri dan statusnya.

    Existing self-hosted nodes

  2. Klik Selesai untuk menutup jendela Penyiapan Runtime Integrasi. Anda melihat runtime integrasi yang dihost sendiri dalam daftar runtime integrasi.

    Self-hosted IR in the list

Membuat layanan tertaut

Anda menulis dan menyebarkan dua Layanan Tertaut di bagian ini:

  • Layanan tertaut Azure Storage menautkan akun Microsoft Azure Storage Anda ke pabrik data. Penyimpanan ini adalah penyimpanan utama yang digunakan oleh kluster Microsoft Azure HDInsight Anda. Dalam hal ini, Anda menggunakan akun Microsoft Azure Storage ini untuk menyimpan skrip Apache Hive dan output skrip.
  • Layanan tertaut Microsoft Azure HDInsight. Azure Data Factory mengirimkan skrip Hive ke kluster HDInsight ini untuk dieksekusi.

Membuat layanan tertaut Azure Storage

  1. Beralih ke tab Layanan Tertaut, dan klik Baru.

    New linked service button

  2. Di jendela Layanan Tertaut Baru, pilih Azure Blob Storage, dan klik Lanjutkan.

    Select Azure Blob Storage

  3. Di jendela Layanan Tertaut Baru, lakukan langkah-langkah berikut:

    1. Masukkan AzureStorageLinkedService untuk Nama.

    2. Pilih MySelfHostedIR untuk Terhubung melalui runtime integrasi.

    3. Pilih akun Microsoft Azure Storage Anda untuk nama Microsoft Azure Storage.

    4. Untuk menguji koneksi ke akun penyimpanan, klik Uji koneksi.

    5. Klik Simpan.

      Specify Azure Blob Storage account

Membuat layanan tertaut HDInsight

  1. Klik Baru lagi untuk membuat layanan tertaut lainnya.

    New linked service button

  2. Beralih ke tab Komputasi, pilih Microsoft Azure HDInsight,dan klik Lanjutkan.

    Select Azure HDInsight

  3. Di jendela Layanan Tertaut Baru, lakukan langkah-langkah berikut:

    1. Masukkan AzureHDInsightLinkedService untuk Nama.

    2. Pilih Bawa Microsoft Azure HDInsight Anda sendiri.

    3. Pilih kluster Microsoft Azure HDInsight anda untuk kluster Hdi.

    4. Masukkan nama penggunauntuk kluster Microsoft Azure HDInsight.

    5. Masukkan kata sandiuntuk pengguna.

      Azure HDInsight settings

Artikel ini mengasumsikan Anda memiliki akses ke kluster melalui internet. Misalnya, Anda dapat terhubung ke kluster di https://clustername.azurehdinsight.net. Alamat ini menggunakan gateway publik, yang tidak tersedia jika Anda telah menggunakan kelompok keamanan jaringan (NSG) atau rute yang ditentukan pengguna (UDR) untuk membatasi akses dari internet. Agar Azure Data Factory dapat mengirimkan pekerjaan ke kluster Microsoft Azure HDInsight di Azure Virtual Network, Anda perlu mengonfigurasi Jaringan Virtual Azure sedemikian rupa sehingga URL dapat diselesaikan ke alamat IP privat gateway yang digunakan oleh Microsoft Azure HDInsight.

  1. Dari portal Microsoft Azure, buka Microsoft Azure Virtual Network tempat Microsoft Azure HDInsight masuk. Buka antarmuka jaringan dengan nama yang dimulai dengan nic-gateway-0. Catat alamat IP privat. Misalnya: 10.6.0.15.

  2. Jika Azure Virtual Network Anda memiliki server DNS, perbarui catatan DNS agar URL kluster Microsoft Azure HDInsight https://<clustername>.azurehdinsight.net dapat diatasi ke 10.6.0.15. Jika Anda tidak memiliki server DNS di Azure Virtual Network, Anda dapat bekerja sementara dengan mengedit file host (C:\Windows\System32\drivers\etc) dari semua VM yang terdaftar sebagai node runtime integrasi yang dihost sendiri dengan menambahkan entri yang mirip dengan yang berikut:

    10.6.0.15 myHDIClusterName.azurehdinsight.net

Buat alur

Dalam langkah ini, Anda membuat alur baru dengan aktivitas Apache Hive. Aktivitas ini menjalankan skrip Apache Hive untuk mengembalikan data dari tabel sampel dan menyimpannya ke jalur yang Anda tentukan.

Perhatikan poin berikut:

  • scriptPath menunjuk ke jalur ke skrip Apache Hive di Akun Microsoft Azure Storage yang Anda gunakan untuk MyStorageLinkedService. Jalur tersebut peka huruf besar/kecil.
  • Output adalah argumen yang digunakan dalam Apache Hive. Gunakan format wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/ untuk mengarahkannya ke folder yang sudah ada di Microsoft Azure Storage Anda. Jalur tersebut peka huruf besar/kecil.
  1. Di antarmuka pengguna Azure Data Factory, klik + (plus) di panel kiri, dan klik Alur.

    New pipeline menu

  2. Di kotak alat Aktivitas, perluas Microsoft Azure HDInsight, dan seret dan lepaskan aktivitas Apache Hive ke permukaan perancang alur.

    drag-drop Hive activity

  3. Di jendela properti, beralihlah ke tab Kluster HDI dan pilih AzureHDInsightLinkedService untuk Layanan Tertaut Microsoft Azure HDInsight.

    Select HDInsight linked service

  4. Alihkan ke tab Skrip, dan lakukan langkah-langkah berikut:

    1. Pilih AzureStorageLinkedService untuk Layanan Tertaut Skrip.

    2. Untuk Jalur File, klik Telusuri Penyimpanan.

      Browse storage

    3. Di jendela Pilih file atau folder, navigasi ke folder hivescript dari kontainer tutorial, pilih hivescript.hql, dan klik Selesai.

      Choose a file or folder

    4. Konfirmasikan bahwa Anda melihat adftutorial/hivescripts/hivescript.hql untuk Jalur File.

      Script settings

    5. Di tab Skrip, perluas bagian Tingkat Lanjut.

    6. Klik Isian otomatis dari skrip untuk Parameter.

    7. Masukkan nilai untuk parameter Output dalam format berikut: wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. Sebagai contoh: wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/.

      Script arguments

  5. Untuk menerbitkan artefak ke Azure Data Factory, klik Terbitkan.

    Screenshot shows the option to publish to a Data Factory.

Memicu proses alur

  1. Pertama, validasi alur dengan mengeklik tombol Validasi pada toolbar. Tutup jendela Output Validasi Alur dengan mengeklik panah kanan (>>).

    Validate pipeline

  2. Untuk memicu proses alur, klik Pemicu di toolbar, dan klik Picu Sekarang.

    Trigger now

Memantau eksekusi alur

  1. Beralih ke tab Monitor di bagian kiri. Anda akan melihat alur yang berjalan di daftar Eksekusi Alur.

    Monitor pipeline runs

  2. Untuk me-refresh daftar, klik Refresh.

  3. Untuk melihat aktivitas berjalan terkait dengan alur, klik Tampilkan Aktivitas Berjalan di kolom Tindakan. Tautan tindakan lainnya adalah untuk menghentikan/menjalankan ulang alur.

    View activity runs

  4. Anda hanya melihat satu aktivitas berjalan karena hanya ada satu aktivitas dalam alur jenis Microsoft Azure HDInsightHive. Untuk beralih kembali ke tampilan sebelumnya, klik tautanAlur di bagian atas.

    Activity runs

  5. Pastikan Anda melihat file output di outputfolder dalam kontainer adftutorial.

    Output file

Anda melakukan langkah-langkah berikut dalam tutorial ini:

  • Membuat pabrik data.
  • Membuat runtime integrasi yang dihost sendiri
  • Membuat Microsoft Azure Storage dan layanan tertaut Microsoft Azure HDInsight
  • Membuat alur pipa dengan aktivitas Apache Hive.
  • Memicu eksekusi alur.
  • Memantau eksekusi alur
  • Verifikasi output

Lanjutkan ke tutorial berikut untuk mempelajari tentang mengubah data dengan menggunakan kluster Spark di Azure: