Bagikan melalui


Menjalankan buku catatan Databricks dengan Databricks Notebook Activity di Azure Data Factory

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Petunjuk / Saran

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Di tutorial ini, Anda menggunakan portal Microsoft Azure untuk membuat alur Azure Data Factory yang menjalankan buku catatan Databricks terhadap kluster pekerjaan Databricks. Tutorial ini juga meneruskan parameter Azure Data Factory ke buku catatan Databricks selama eksekusi.

Anda akan melakukan langkah-langkah berikut dalam tutorial ini:

  • Membuat pabrik data.

  • Membuat alur yang menggunakan Databricks Notebook Activity.

  • Memicu eksekusi alur.

  • Pantau eksekusi alur.

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Catatan

Untuk detail lengkap tentang cara menggunakan Aktivitas Notebook Databricks, termasuk menggunakan pustaka dan meneruskan parameter input dan output, lihat dokumentasi Aktivitas Notebook Databricks.

Prasyarat

  • Ruang kerja Azure Databricks. Buat ruang kerja Databricks atau gunakan ruang kerja yang sudah ada. Anda membuat buku catatan Python di ruang kerja Azure Databricks Anda. Kemudian Anda menjalankan buku catatan dan meneruskan parameter ke sana menggunakan Azure Data Factory.

Membuat pabrik data

  1. Luncurkan browser web Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Edge dan Google Chrome.

  2. Pilih Buat sumber daya di menu portal Microsoft Azure, lalu pilih>Analytics Data Factory :

    Cuplikan layar yang memperlihatkan pilihan Data Factory di panel Baru.

  3. Pada halaman Buat Pabrik Data, di bawah tab Dasar, pilih Langganan Azure tempat Anda ingin membuat pabrik data.

  4. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    1. Pilih grup sumber daya yang ada di menu drop-down.

    2. Pilih Buat baru, dan masukkan nama grup sumber daya baru.

    Untuk mempelajari tentang grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  5. Untuk Wilayah, pilih lokasi pabrik data.

    Daftar ini hanya menampilkan lokasi yang didukung Data Factory, dan tempat meta data Azure Data Factory Anda akan disimpan. Penyimpanan (seperti Azure Storage dan Azure SQL Database) dan komputasi (seperti Azure HDInsight) data terkait yang digunakan Data Factory dapat berjalan di wilayah lain.

  6. Untuk Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Azure harus bersifat unik secara global. Jika Anda melihat kesalahan berikut, ubah nama pabrik data (Misalnya, gunakan <yourname>ADFTutorialDataFactory). Untuk penamaan aturan untuk artefak Pabrik Data, lihat artikel Pabrik Data - aturan penamaan.

    Cuplikan layar memperlihatkan Kesalahan saat nama tidak tersedia.

  7. Untuk Versi, pilih V2.

  8. Pilih Berikutnya: Konfigurasi Git, lalu pilih kotak centang Konfigurasikan Git nanti.

  9. Pilih Tinjau + buat, lalu pilih Buat setelah validasi berhasil.

  10. Setelah selesai membuat, pilih Buka sumber daya untuk menavigasi ke halaman Azure Data Factory. Pilih ubin Buka Azure Data Factory Studio untuk memulai aplikasi antarmuka pengguna (UI) Azure Data Factory pada tab browser terpisah.

    Cuplikan layar yang memperlihatkan halaman beranda untuk Azure Data Factory, dengan ubin Buka Azure Data Factory Studio.

Membuat layanan tertaut

Di bagian ini, Anda menulis layanan tertaut Databricks. Layanan tertaut ini berisi informasi koneksi ke kluster Databricks:

Membuat layanan tertaut Azure Databricks

  1. Di halaman beranda, beralih ke tab Kelola di panel kiri.

    Cuplikan layar yang menunjukkan tab Kelola.

  2. Pilih Layanan tertaut di bagian Koneksi, lalu pilih + Baru.

    Cuplikan layar yang menunjukkan cara membuat koneksi baru.

  3. Di jendela Layanan tertaut baru, pilih Komputasi>Azure Databricks, lalu pilih Lanjutkan.

    Cuplikan layar yang menunjukkan cara menentukan layanan Databricks tertaut.

  4. Di jendela Layanan tertaut baru, lakukan langkah-langkah berikut:

    1. Untuk Nama, masukkan AzureDatabricks_LinkedService.

    2. Pilih ruang kerja Databricks yang sesuai tempat Anda akan menjalankan buku catatan.

    3. Untuk Pilih kluster, pilih Kluster pekerjaan baru.

    4. Untuk URL Ruang Kerja Databricks, informasi harus diisi otomatis.

    5. Untuk Jenis autentikasi, jika Anda memilih Token Akses, hasilkan dari tempat kerja Azure Databricks. Anda dapat menemukan langkah-langkahnya di sini. Untuk Identitas layanan terkelola dan Identitas Terkelola yang Ditetapkan Pengguna, berikan peran Kontributor ke kedua identitas di menu Kontrol akses sumber daya Azure Databricks.

    6. Untuk Versi kluster, pilih versi yang ingin Anda gunakan.

    7. Untuk Jenis node kluster, pilih Standar_D3_v2 di bawah kategori Tujuan Umum (HDD) untuk tutorial ini.

    8. Untuk Pekerja, masukkan 2.

    9. Pilih Buat.

      Cuplikan layar yang menunjukkan konfigurasi layanan Azure Databricks tertaut yang baru.

Buat alur

  1. Pilih tombol (plus) +, lalu pilih Alur pada menu.

    Cuplikan layar yang memperlihatkan tombol untuk membuat alur baru.

  2. Buat parameter yang akan digunakan di Alur. Kemudian Anda meneruskan parameter ini ke Databricks Notebook Activity. Di alur yang kosong, klik tab Parameter, lalu pilih + Baru dan beri nama 'nama'.

    Cuplikan layar yang menunjukkan cara membuat parameter baru.

    Cuplikan layar yang menunjukkan cara membuat parameter nama.

  3. Di kotak alat Aktivitas, luaskan Databricks. Seret aktivitas Buku catatan dari kotak alat Aktivitas ke permukaan perancang alur.

    Cuplikan layar yang memperlihatkan cara menarik buku catatan ke platform perancang.

  4. Di properti untuk jendela aktivitas DatabricksNotebook pada bagian bawah, selesaikan langkah-langkah berikut ini:

    1. Beralih ke tab Azure Databricks.

    2. Pilih AzureDatabricks_LinkedService (yang Anda buat di prosedur sebelumnya).

    3. Beralih ke tab Pengaturan.

    4. Telusuri untuk memilih jalur Databricks Notebook. Mari kita membuat buku catatan dan menentukan jalurnya di sini. Anda mendapatkan Jalur Notebook dengan mengikuti beberapa langkah berikutnya.

      1. Luncurkan Ruang Kerja Azure Databricks Anda.

      2. Buat Folder Baru di Tempat Kerja dan beri nama adftutorial.

      3. Buat buku catatan baru, sebut saja mynotebook. Klik kanan Folder adftutorial, dan pilih Buat.

      4. Di buku catatan yang baru dibuat "mynotebook'" tambahkan kode berikut:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. Jalur Buku Catatan dalam kasus ini adalah /adftutorial/mynotebook.

  5. Beralih kembali ke alat penyusunan tulisan antarmuka pengguna Data Factory. Buka Tab Pengaturan di bagian aktivitas Notebook1.

    sebuah. Tambahkan parameter ke aktivitas Buku Catatan. Anda menggunakan parameter yang sama dengan yang Anda tambahkan sebelumnya ke Alur.

    Cuplikan layar yang menunjukkan cara menambahkan parameter.

    b. Beri nama parameter sebagai input dan berikan nilai sebagai ekspresi @pipeline().parameters.name.

  6. Untuk memvalidasi alur, klik tombol Validasi pada toolbar. Untuk menutup jendela validasi, pilih tombol Tutup.

    Cuplikan layar yang menunjukkan cara memvalidasi alur.

  7. Pilih Terbitkan semua. Antarmuka pengguna Data Factory menerbitkan entitas (layanan dan alur tertaut) ke layanan Azure Data Factory.

    Cuplikan layar yang menunjukkan cara menerbitkan entitas pabrik data baru.

Memicu proses alur

Pilih Tambahkan pemicu pada toolbar, lalu pilih Picu sekarang.

Cuplikan layar yang menunjukkan cara memilih perintah 'Picu sekarang'.

Kotak dialog Eksekusi alur meminta parameter nama. Gunakan /path/filename sebagai parameter di sini. Pilih OK.

Cuplikan layar yang menunjukkan cara memberikan nilai untuk parameter nama.

Memantau eksekusi alur

  1. Beralih ke tab Monitor. Pastikan Anda melihat eksekusi alur. Dibutuhkan sekitar 5-8 menit untuk membuat kluster pekerjaan Databricks, tempat buku catatan dieksekusi.

    Cuplikan layar yang menunjukkan cara memantau alur.

  2. Pilih Refresh secara berkala untuk memeriksa status eksekusi alur.

  3. Untuk melihat eksekusi aktivitas yang terkait dengan eksekusi alur, pilih tautan pipeline1 di kolom Nama alur.

  4. Di halaman Eksekusi aktivitas, pilih Output di kolom Nama aktivitas untuk melihat output setiap aktivitas, dan Anda bisa menemukan tautan menuju log Databricks di panel Output untuk log Spark yang lebih detail.

  5. Untuk kembali ke tampilan alur yang dijalankan, pilih tautan Semua alur yang berjalan di menu remah roti di atas.

Verifikasi output

Anda dapat masuk ke ruang kerja Azure Databricks, buka Eksekusi Pekerjaan dan Anda dapat melihat status Pekerjaan sebagai eksekusi tertunda, berjalan, atau dihentikan.

Anda dapat memilih Nama pekerjaan dan menavigasi untuk melihat detail lebih lanjut. Jika berhasil dijalankan, Anda dapat memvalidasi parameter yang diteruskan dan output buku catatan Python.

Ringkasan

Alur dalam sampel ini memicu aktivitas Databricks Notebook dan meneruskan parameter ke sana. Anda mempelajari cara untuk:

  • Membuat pabrik data.

  • Membuat alur yang menggunakan aktivitas Databricks Notebook.

  • Memicu eksekusi alur.

  • Pantau eksekusi alur.