Latihan - Menggunakan transformasi komputasi dalam Azure Data Factory
Dalam beberapa kasus, transformasi bebas kode dalam skala besar mungkin tidak memenuhi kebutuhan Anda. Anda dapat menggunakan Azure Data Factory untuk menyerap data mentah yang dikumpulkan dari berbagai sumber dan bekerja dengan berbagai sumber daya komputasi seperti Azure Databricks, Azure HDInsight, atau sumber daya komputasi lainnya untuk menyusun ulang sesuai kebutuhan Anda.
ADF dan Azure Databricks
Sebagai contoh, integrasi Azure Databricks dengan ADF memungkinkan Anda menambahkan buku catatan Databricks dalam alur ADF untuk memanfaatkan kemampuan analitik dan transformasi data Databricks. Anda dapat menambahkan buku catatan dalam alur kerja data Anda untuk menyusun dan mengubah data mentah yang dimuat ke ADF dari sumber yang berbeda. Setelah data diubah menggunakan Databricks, Anda kemudian dapat memuatnya ke sumber gudang data mana pun.
Penyerapan dan transformasi data menggunakan kemampuan kolektif ADF dan Azure Databricks pada dasarnya melibatkan langkah-langkah berikut:
Membuat akun penyimpanan Azure - Langkah pertama adalah membuat akun penyimpanan Azure untuk menyimpan data yang diserap dan diubah.
Membuat Azure Data Factory - Setelah Anda menyiapkan akun penyimpanan, Anda perlu membuat Azure Data Factory menggunakan portal Azure.
Membuat alur kerja data - Setelah penyimpanan dan ADF Anda berjalan, Anda mulai dengan membuat alur, di mana langkah pertama adalah menyalin data dari sumber Anda menggunakan aktivitas Salinan ADF. Aktivitas Salin memungkinkan Anda menyalin data dari berbagai sumber lokal dan cloud.
Menambahkan buku catatan Databricks ke alur - Setelah data Anda disalin ke ADF, Anda menambahkan buku catatan Databricks Anda ke alur, setelah menyalin aktivitas. Buku catatan ini mungkin berisi sintaksis dan kode untuk mengubah dan membersihkan data mentah sesuai diperlukan.
Melakukan analisis pada data - Sekarang data Anda dibersihkan dan disusun ke dalam format yang diperlukan, Anda dapat menggunakan buku catatan Databricks untuk melatih lebih lanjut atau menganalisisnya untuk menghasilkan hasil yang diperlukan.
Anda telah mempelajari apa itu Azure Data Factory dan bagaimana integrasinya dengan Azure Databricks dapat membantu Anda memuat dan mengubah data Anda. Sekarang mari kita buat alur kerja data sampel secara menyeluruh.
Mengintegrasikan buku catatan Azure Databricks dengan alur Azure Data Factory
Ada sejumlah tugas yang perlu dilakukan untuk mengintegrasikan buku catatan Azure Databricks dengan alur Azure Data Factory sebagai berikut:
Membuat Token Akses Databricks.
Membuat Buku Catatan Databricks
Buat Layanan Tertaut
Membuat Alur yang menggunakan Databricks Notebook Activity.
Memicu Eksekusi Alur.
Catatan
Langkah-langkah berikut mengasumsikan sudah ada kluster Azure Databricks yang sudah disediakan
Tugas 1: Membuat Token Akses Databricks.
Di portal Azure, klik Grup sumber daya dan kemudian klik awrgstudxx, dan kemudian klik awdbwsstudxx di mana xx adalah inisial nama Anda.
Klik Luncurkan Ruang Kerja
Klik Setelan pengguna di sudut kiri bawah ruang kerja Databricks Anda.
Klik Pengaturan Pengguna.
Masuk ke tab Token Akses, dan klik tombol Buat Token Baru.
Masukkan deskripsi di komentar “Untuk Integrasi ADF” dan atur periode seumur hidup 10 hari dan klik Buat
Salin token yang dibuat dan simpan di Notepad, lalu klik Selesai.
Tugas 2: Membuat Buku Catatan Databricks
Di sebelah kiri layar, klik ikon Ruang Kerja, lalu klik panah di samping kata Ruang Kerja, dan klik Buat dan klik Folder. Beri nama folder adftutorial, dan klik Buat Folder. Folder adftutorial muncul di Ruang Kerja.
Klik panah dropdown di samping adftutorial, lalu klik Buat, lalu klik Buku Catatan.
Dalam kotak dialog Buat Buku Catatan, ketik nama mynotebook, dan pastikan bahwa bahasa menyatakan Python, lalu klik Buat. Buku catatan dengan judul mynotebook muncul/
Di buku catatan yang baru dibuat "mynotebook'" tambahkan kode berikut:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") dbutils.widgets.get("input") y = getArgument("input") print ("Param -\'input':") print (y)
Catatan
bahwa jalur buku catatan adalah /adftutorial/mynotebook
Tugas 3: Buat Layanan Tertaut
Di Microsoft Edge, klik tab untuk portal Di portal Azure, dan kembali ke Azure Data Factory dan klik Open Azure Data Factory Studio.
Di sisi kiri layar, klik ikon Kelola.
Di bawah Koneksi, klik Layanan Tertaut.
Di Layanan Tertaut, di bagian atas layar, klik + Baru,
Klik pada tab Komputasi, klik Azure Databricks, lalu klik Lanjutkan.
Di layar Layanan Tertaut Baru (Azure Databricks), isi detail berikut dan klik Selesai
- Nama: xx_dbls, di mana xx adalah inisial Anda
- Ruang Kerja Databricks: awdbwsstudxx, di mana xx adalah inisial Anda
- Pilih kluster: gunakan yang ada
- Domain/Wilayah: harus diisi
- Token Akses: Salin token akses dari Notepad dan tempelkan ke bidang ini
- Pilih dari kluster yang ada: awdbclstudxx, di mana xx adalah inisial Anda
- Biarkan opsi lainnya mengikuti pengaturan default
Catatan
Ketika Anda mengklik selesai, Anda dikembalikan ke layar Penulis & Pemantau di mana xx_dbls telah dibuat, dengan layanan tertaut lainnya yang dibuat di latihan sebelumnya.
Tugas 4: Membuat alur yang menggunakan Databricks Notebook Activity.
Di sisi kiri layar, klik ikon Pembuat, lalu klik Alur. Ini membuka tab dengan Perancang alur.
Di bagian bawah perancang alur, klik pada tab parameter, lalu klik + Baru
Membuat parameter dengan Nama name, dengan jenis string
Di bawah menu Aktivitas, perluas Databricks.
Klik dan tarik Buku Catatan ke kanvas.
Di properti untuk jendela Notebook1 di bagian bawah, selesaikan langkah-langkah berikut ini:
Beralih ke tab Azure Databricks.
Pilih xx_dbls yang Anda buat di prosedur sebelumnya.
Beralih ke tab Pengaturan, dan letakkan /adftutorial/mynotebook di jalur Buku Catatan.
Perluas Parameter Dasar, lalu klik pada + Baru
Buat parameter dengan Nama input, dengan nilai @pipeline().parameters.name
Di Notebook1, klik Validasi, di samping tombol Simpan sebagai templat. Saat jendela muncul di sebelah kanan layar yang menyatakan "Alur Anda telah divalidasi. Tidak ada kesalahan yang ditemukan." Klik >> untuk menutup jendela.
Klik Terbitkan Semua untuk menerbitkan alur dan layanan tertaut.
Catatan
Pesan akan muncul untuk menyatakan bahwa penyebaran berhasil.
Tugas 5: Memicu Eksekusi Alur
Di Notebook1, klik Tambahkan pemicu, dan klik Picu Sekarang di sebelah tombol Debug.
Kotak dialog Eksekusi Alur meminta parameter nama. Gunakan /path/filename sebagai parameter di sini. Klik Selesai. Lingkaran merah muncul di atas aktivitas Notebook1 di kanvas.
Tugas 6: Pantau Alur
Di sebelah kiri layar, klik pada tab Monitor. Konfirmasikan bahwa Anda melihat alur berjalan. Dibutuhkan sekitar 5-8 menit untuk membuat kluster pekerjaan Databricks, tempat buku catatan dieksekusi.
Pilih Refresh secara berkala untuk memeriksa status eksekusi alur.
Untuk melihat eksekusi aktivitas yang terkait dengan eksekusi alur, pilih Tampilkan Eksekusi Aktivitas di kolom Tindakan.
Tugas 7: Verifikasi output
Di Microsoft Edge, klik pada tab mynotebook - Databricks
Di ruang kerja Azure Databricks, klik Kluster dan Anda dapat melihat status Pekerjaan sebagai eksekusi tertunda, berjalan, atau dihentikan.
Klik kluster awdbclstudxx, dan kemudian klik Log Peristiwa untuk melihat aktivitas.
Catatan
Anda akan melihat Jenis Peristiwa Dimulai dengan waktu Anda memicu alur berjalan.