Latihan - Menggunakan transformasi komputasi dalam Azure Data Factory

Selesai

Dalam beberapa kasus, transformasi bebas kode dalam skala besar mungkin tidak memenuhi kebutuhan Anda. Anda dapat menggunakan Azure Data Factory untuk menyerap data mentah yang dikumpulkan dari berbagai sumber dan bekerja dengan berbagai sumber daya komputasi seperti Azure Databricks, Azure HDInsight, atau sumber daya komputasi lainnya untuk menyusun ulang sesuai kebutuhan Anda.

ADF dan Azure Databricks

Sebagai contoh, integrasi Azure Databricks dengan ADF memungkinkan Anda menambahkan buku catatan Databricks dalam alur ADF untuk memanfaatkan kemampuan analitik dan transformasi data Databricks. Anda dapat menambahkan buku catatan dalam alur kerja data Anda untuk menyusun dan mengubah data mentah yang dimuat ke ADF dari sumber yang berbeda. Setelah data diubah menggunakan Databricks, Anda kemudian dapat memuatnya ke sumber gudang data mana pun.

Penyerapan dan transformasi data menggunakan kemampuan kolektif ADF dan Azure Databricks pada dasarnya melibatkan langkah-langkah berikut:

  1. Membuat akun penyimpanan Azure - Langkah pertama adalah membuat akun penyimpanan Azure untuk menyimpan data yang diserap dan diubah.

  2. Membuat Azure Data Factory - Setelah Anda menyiapkan akun penyimpanan, Anda perlu membuat Azure Data Factory menggunakan portal Azure.

  3. Membuat alur kerja data - Setelah penyimpanan dan ADF Anda berjalan, Anda mulai dengan membuat alur, di mana langkah pertama adalah menyalin data dari sumber Anda menggunakan aktivitas Salinan ADF. Aktivitas Salin memungkinkan Anda menyalin data dari berbagai sumber lokal dan cloud.

  4. Menambahkan buku catatan Databricks ke alur - Setelah data Anda disalin ke ADF, Anda menambahkan buku catatan Databricks Anda ke alur, setelah menyalin aktivitas. Buku catatan ini mungkin berisi sintaksis dan kode untuk mengubah dan membersihkan data mentah sesuai diperlukan.

  5. Melakukan analisis pada data - Sekarang data Anda dibersihkan dan disusun ke dalam format yang diperlukan, Anda dapat menggunakan buku catatan Databricks untuk melatih lebih lanjut atau menganalisisnya untuk menghasilkan hasil yang diperlukan.

Anda telah mempelajari apa itu Azure Data Factory dan bagaimana integrasinya dengan Azure Databricks dapat membantu Anda memuat dan mengubah data Anda. Sekarang mari kita buat alur kerja data sampel secara menyeluruh.

Mengintegrasikan buku catatan Azure Databricks dengan alur Azure Data Factory

Ada sejumlah tugas yang perlu dilakukan untuk mengintegrasikan buku catatan Azure Databricks dengan alur Azure Data Factory sebagai berikut:

  1. Membuat Token Akses Databricks.

  2. Membuat Buku Catatan Databricks

  3. Buat Layanan Tertaut

  4. Membuat Alur yang menggunakan Databricks Notebook Activity.

  5. Memicu Eksekusi Alur.

    Catatan

    Langkah-langkah berikut mengasumsikan sudah ada kluster Azure Databricks yang sudah disediakan

Tugas 1: Membuat Token Akses Databricks.

  1. Di portal Azure, klik Grup sumber daya dan kemudian klik awrgstudxx, dan kemudian klik awdbwsstudxx di mana xx adalah inisial nama Anda.

  2. Klik Luncurkan Ruang Kerja

  3. Klik Setelan pengguna di sudut kiri bawah ruang kerja Databricks Anda.

  4. Klik Pengaturan Pengguna.

  5. Masuk ke tab Token Akses, dan klik tombol Buat Token Baru.

  6. Masukkan deskripsi di komentar “Untuk Integrasi ADF” dan atur periode seumur hidup 10 hari dan klik Buat

  7. Salin token yang dibuat dan simpan di Notepad, lalu klik Selesai.

Tugas 2: Membuat Buku Catatan Databricks

  1. Di sebelah kiri layar, klik ikon Ruang Kerja, lalu klik panah di samping kata Ruang Kerja, dan klik Buat dan klik Folder. Beri nama folder adftutorial, dan klik Buat Folder. Folder adftutorial muncul di Ruang Kerja.

  2. Klik panah dropdown di samping adftutorial, lalu klik Buat, lalu klik Buku Catatan.

  3. Dalam kotak dialog Buat Buku Catatan, ketik nama mynotebook, dan pastikan bahwa bahasa menyatakan Python, lalu klik Buat. Buku catatan dengan judul mynotebook muncul/

  4. Di buku catatan yang baru dibuat "mynotebook'" tambahkan kode berikut:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Catatan

    bahwa jalur buku catatan adalah /adftutorial/mynotebook

Tugas 3: Buat Layanan Tertaut

  1. Di Microsoft Edge, klik tab untuk portal Di portal Azure, dan kembali ke Azure Data Factory dan klik Open Azure Data Factory Studio.

  2. Di sisi kiri layar, klik ikon Kelola.

  3. Di bawah Koneksi, klik Layanan Tertaut.

  4. Di Layanan Tertaut, di bagian atas layar, klik + Baru,

  5. Klik pada tab Komputasi, klik Azure Databricks, lalu klik Lanjutkan.

  6. Di layar Layanan Tertaut Baru (Azure Databricks), isi detail berikut dan klik Selesai

    • Nama: xx_dbls, di mana xx adalah inisial Anda
    • Ruang Kerja Databricks: awdbwsstudxx, di mana xx adalah inisial Anda
    • Pilih kluster: gunakan yang ada
    • Domain/Wilayah: harus diisi
    • Token Akses: Salin token akses dari Notepad dan tempelkan ke bidang ini
    • Pilih dari kluster yang ada: awdbclstudxx, di mana xx adalah inisial Anda
    • Biarkan opsi lainnya mengikuti pengaturan default

    Catatan

    Ketika Anda mengklik selesai, Anda dikembalikan ke layar Penulis & Pemantau di mana xx_dbls telah dibuat, dengan layanan tertaut lainnya yang dibuat di latihan sebelumnya.

Tugas 4: Membuat alur yang menggunakan Databricks Notebook Activity.

  1. Di sisi kiri layar, klik ikon Pembuat, lalu klik Alur. Ini membuka tab dengan Perancang alur.

  2. Di bagian bawah perancang alur, klik pada tab parameter, lalu klik + Baru

  3. Membuat parameter dengan Nama name, dengan jenis string

  4. Di bawah menu Aktivitas, perluas Databricks.

  5. Klik dan tarik Buku Catatan ke kanvas.

  6. Di properti untuk jendela Notebook1 di bagian bawah, selesaikan langkah-langkah berikut ini:

    • Beralih ke tab Azure Databricks.

    • Pilih xx_dbls yang Anda buat di prosedur sebelumnya.

    • Beralih ke tab Pengaturan, dan letakkan /adftutorial/mynotebook di jalur Buku Catatan.

    • Perluas Parameter Dasar, lalu klik pada + Baru

    • Buat parameter dengan Nama input, dengan nilai @pipeline().parameters.name

  7. Di Notebook1, klik Validasi, di samping tombol Simpan sebagai templat. Saat jendela muncul di sebelah kanan layar yang menyatakan "Alur Anda telah divalidasi. Tidak ada kesalahan yang ditemukan." Klik >> untuk menutup jendela.

  8. Klik Terbitkan Semua untuk menerbitkan alur dan layanan tertaut.

    Catatan

    Pesan akan muncul untuk menyatakan bahwa penyebaran berhasil.

Tugas 5: Memicu Eksekusi Alur

  1. Di Notebook1, klik Tambahkan pemicu, dan klik Picu Sekarang di sebelah tombol Debug.

  2. Kotak dialog Eksekusi Alur meminta parameter nama. Gunakan /path/filename sebagai parameter di sini. Klik Selesai. Lingkaran merah muncul di atas aktivitas Notebook1 di kanvas.

Tugas 6: Pantau Alur

  1. Di sebelah kiri layar, klik pada tab Monitor. Konfirmasikan bahwa Anda melihat alur berjalan. Dibutuhkan sekitar 5-8 menit untuk membuat kluster pekerjaan Databricks, tempat buku catatan dieksekusi.

  2. Pilih Refresh secara berkala untuk memeriksa status eksekusi alur.

  3. Untuk melihat eksekusi aktivitas yang terkait dengan eksekusi alur, pilih Tampilkan Eksekusi Aktivitas di kolom Tindakan.

Tugas 7: Verifikasi output

  1. Di Microsoft Edge, klik pada tab mynotebook - Databricks

  2. Di ruang kerja Azure Databricks, klik Kluster dan Anda dapat melihat status Pekerjaan sebagai eksekusi tertunda, berjalan, atau dihentikan.

  3. Klik kluster awdbclstudxx, dan kemudian klik Log Peristiwa untuk melihat aktivitas.

    Catatan

    Anda akan melihat Jenis Peristiwa Dimulai dengan waktu Anda memicu alur berjalan.