Menjalankan buku catatan Databricks dengan Databricks Notebook Activity di Azure Data Factory

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Di tutorial ini, Anda menggunakan portal Microsoft Azure untuk membuat alur Azure Data Factory yang menjalankan buku catatan Databricks terhadap kluster pekerjaan Databricks. Tutorial ini juga meneruskan parameter Azure Data Factory ke buku catatan Databricks selama eksekusi.

Anda akan melakukan langkah-langkah berikut dalam tutorial ini:

  • Membuat pabrik data.

  • Membuat alur yang menggunakan Databricks Notebook Activity.

  • Memicu eksekusi alur.

  • Pantau eksekusi alur.

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Untuk pengenalan dan demonstrasi sebelas menit dari fitur ini, tonton video berikut:

Prasyarat

  • Ruang kerja Azure Databricks. Buat ruang kerja Databricks atau gunakan ruang kerja yang sudah ada. Anda membuat buku catatan Python di ruang kerja Azure Databricks Anda. Kemudian Anda menjalankan buku catatan dan meneruskan parameter ke sana menggunakan Azure Data Factory.

Membuat pabrik data

  1. Luncurkan browser web Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Edge dan Google Chrome.

  2. Pilih Buat sumber daya di menu portal Microsoft Azure, pilih Integrasi, lalu pilih Data Factory.

    Screenshot showing Data Factory selection in the New pane.

  3. Pada halaman Buat Pabrik Data, di bawah tab Dasar, pilih Langganan Azure tempat Anda ingin membuat pabrik data.

  4. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    1. Pilih grup sumber daya yang ada di menu drop-down.

    2. Pilih Buat baru, dan masukkan nama grup sumber daya baru.

    Untuk mempelajari tentang grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  5. Untuk Wilayah, pilih lokasi pabrik data.

    Daftar ini hanya menampilkan lokasi yang didukung Data Factory, dan tempat meta data Azure Data Factory Anda akan disimpan. Penyimpanan (seperti Azure Storage dan Azure SQL Database) dan komputasi (seperti Azure HDInsight) data terkait yang digunakan Data Factory dapat berjalan di wilayah lain.

  6. Untuk Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Azure harus bersifat unik secara global. Jika Anda melihat kesalahan berikut, ubah nama pabrik data (Misalnya, gunakan <yourname>ADFTutorialDataFactory). Untuk penamaan aturan untuk artefak Pabrik Data, lihat artikel Pabrik Data - aturan penamaan.

    Screenshot showing the Error when a name is not available.

  7. Untuk Versi, pilih V2.

  8. Pilih Berikutnya: Konfigurasi Git, lalu pilih kotak centang Konfigurasikan Git nanti.

  9. Pilih Tinjau + buat, lalu pilih Buat setelah validasi berhasil.

  10. Setelah selesai membuat, pilih Buka sumber daya untuk menavigasi ke halaman Azure Data Factory. Pilih ubin Buka Azure Data Factory Studio untuk memulai aplikasi antarmuka pengguna (UI) Azure Data Factory pada tab browser terpisah.

    Screenshot showing the home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Membuat layanan tertaut

Di bagian ini, Anda menulis layanan tertaut Databricks. Layanan tertaut ini berisi informasi koneksi ke kluster Databricks:

Membuat layanan tertaut Azure Databricks

  1. Di halaman beranda, beralih ke tab Kelola di panel kiri.

    Screenshot showing the Manage tab.

  2. Pilih Layanan tertaut di bagian Koneksi, lalu pilih + Baru.

    Screenshot showing how to create a new connection.

  3. Di jendela Layanan tertaut baru, pilih Komputasi>Azure Databricks, lalu pilih Lanjutkan.

    Screenshot showing how to specify a Databricks linked service.

  4. Di jendela Layanan tertaut baru, lakukan langkah-langkah berikut:

    1. Untuk Nama, masukkan AzureDatabricks_LinkedService.

    2. Pilih Ruang kerja Databricks tempat Anda menjalankan buku catatan.

    3. Untuk Pilih kluster, pilih Kluster pekerjaan baru.

    4. Untuk URL Ruang Kerja Databrick, informasi harus diisi secara otomatis.

    5. Untuk Jenis autentikasi, jika Anda memilih Token Akses, hasilkan dari tempat kerja Azure Databricks. Anda dapat menemukan langkah-langkahnya di sini. Untuk Identitas layanan terkelola dan Identitas Terkelola yang Ditetapkan Pengguna, berikan peran Kontributor ke kedua identitas di menu Kontrol akses sumber daya Azure Databricks.

    6. Untuk Versi kluster, pilih versi yang ingin Anda gunakan.

    7. Untuk Jenis node kluster, pilih Standar_D3_v2 di bawah kategori Tujuan Umum (HDD) untuk tutorial ini.

    8. Untuk Pekerja, masukkan 2.

    9. Pilih Buat.

      Screenshot showing the configuration of the new Azure Databricks linked service.

Buat alur

  1. Pilih tombol (plus) +, lalu pilih Alur pada menu.

    Screenshot showing buttons for creating a new pipeline.

  2. Buat parameter yang akan digunakan di Alur. Kemudian Anda meneruskan parameter ini ke Databricks Notebook Activity. Di alur yang kosong, klik tab Parameter, lalu pilih + Baru dan beri nama 'nama'.

    Screenshot showing how to create a new parameter.

    Screenshot showing how to create the name parameter.

  3. Di kotak alat Aktivitas, luaskan Databricks. Seret aktivitas Buku catatan dari kotak alat Aktivitas ke permukaan perancang alur.

    Screenshot showing how to drag the notebook to the designer surface.

  4. Di properti untuk jendela aktivitas DatabricksNotebook pada bagian bawah, selesaikan langkah-langkah berikut ini:

    1. Beralih ke tab Azure Databricks.

    2. Pilih AzureDatabricks_LinkedService (yang Anda buat di prosedur sebelumnya).

    3. Beralih ke tab Pengaturan.

    4. Telusuri untuk memilih jalur Databricks Notebook. Mari kita membuat buku catatan dan menentukan jalurnya di sini. Anda mendapatkan Jalur Notebook dengan mengikuti beberapa langkah berikutnya.

      1. Luncurkan Ruang Kerja Azure Databricks Anda.

      2. Buat Folder Baru di Tempat Kerja dan beri nama adftutorial.

        Screenshot showing how to create a new folder.

      3. Cuplikan layar yang menunjukkan cara membuat buku catatan baru. (Python), mari kita beri nama mynotebook dalam Folder adftutorial, klik Buat.

        Screenshot showing how to create a new notebook.

        Screenshot showing how to set the properties of the new notebook.

      4. Di buku catatan yang baru dibuat "mynotebook'" tambahkan kode berikut:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Screenshot showing how to create widgets for parameters.

      5. Jalur Buku Catatan dalam kasus ini adalah /adftutorial/mynotebook.

  5. Beralih kembali ke alat penyusunan tulisan antarmuka pengguna Data Factory. Buka Tab Pengaturan di bagian aktivitas Notebook1.

    a. Tambahkan parameter ke aktivitas Buku Catatan. Anda menggunakan parameter yang sama dengan yang Anda tambahkan sebelumnya ke Alur.

    Screenshot showing how to add a parameter.

    b. Beri nama parameter sebagai input dan berikan nilai sebagai ekspresi @pipeline().parameters.name.

  6. Untuk memvalidasi alur, klik tombol Validasi pada toolbar. Untuk menutup jendela validasi, pilih tombol Tutup.

    Screenshot showing how to validate the pipeline.

  7. Pilih Terbitkan semua. Antarmuka pengguna Data Factory menerbitkan entitas (layanan dan alur tertaut) ke layanan Azure Data Factory.

    Screenshot showing how to publish the new data factory entities.

Memicu proses alur

Pilih Tambahkan pemicu pada toolbar, lalu pilih Picu sekarang.

Screenshot showing how to select the 'Trigger now' command.

Kotak dialog Eksekusi alur meminta parameter nama. Gunakan /path/filename sebagai parameter di sini. Pilih OK.

Screenshot showing how to provide a value for the name parameters.

Memantau eksekusi alur

  1. Beralih ke tab Monitor. Pastikan Anda melihat eksekusi alur. Dibutuhkan sekitar 5-8 menit untuk membuat kluster pekerjaan Databricks, tempat buku catatan dieksekusi.

    Screenshot showing how to monitor the pipeline.

  2. Pilih Refresh secara berkala untuk memeriksa status eksekusi alur.

  3. Untuk melihat eksekusi aktivitas yang terkait dengan eksekusi alur, pilih tautan pipeline1 di kolom Nama alur.

  4. Di halaman Eksekusi aktivitas, pilih Output di kolom Nama aktivitas untuk melihat output setiap aktivitas, dan Anda bisa menemukan tautan menuju log Databricks di panel Output untuk log Spark yang lebih detail.

  5. Untuk kembali ke tampilan alur yang dijalankan, pilih tautan Semua alur yang berjalan di menu remah roti di atas.

Verifikasi output

Anda dapat masuk ke ruang kerja Azure Databricks, buka Kluster dan Anda dapat melihat status Pekerjaan sebagai eksekusi tertunda, berjalan, atau dihentikan.

Screenshot showing how to view the job cluster and the job.

Anda dapat mengeklik Nama pekerjaan dan mengarahkan untuk melihat detail lebih lanjut. Jika berhasil dijalankan, Anda dapat memvalidasi parameter yang diteruskan dan output buku catatan Python.

Screenshot showing how to view the run details and output.

Alur dalam sampel ini memicu aktivitas Databricks Notebook dan meneruskan parameter ke sana. Anda mempelajari cara untuk:

  • Membuat pabrik data.

  • Membuat alur yang menggunakan aktivitas Databricks Notebook.

  • Memicu eksekusi alur.

  • Pantau eksekusi alur.