Kumpulan penulis di ruang kerja

Bundel Automation Deklaratif dapat dibuat dan dimodifikasi langsung di ruang kerja.

Untuk persyaratan penggunaan bundel di ruang kerja, lihat Bundel Otomatisasi Deklaratif di persyaratan ruang kerja.

Untuk informasi selengkapnya tentang bundel, lihat Apa itu Bundel Otomatisasi Deklaratif?.

Membuat bundel

Untuk membuat bundel di ruang kerja Databricks:

  1. Navigasikan ke folder Git tempat Anda ingin membuat bundel.

  2. Klik tombol Buat , lalu klik Bundel aset. Atau, klik kanan pada folder Git atau kebab terkait di pohon ruang kerja dan klik Buat>Bundel Aset:

    Membuat bundel aset

  3. Dalam dialog Buat bundel aset , beri nama bundel aset, seperti bundel yang benar-benar mengagumkan. Nama bundel hanya dapat berisi huruf, angka, tanda hubung, dan garis bawah.

  4. Untuk Templat, pilih apakah Anda ingin membuat bundel kosong, bundel yang menjalankan contoh buku catatan Python, atau bundel yang menjalankan SQL. Jika Anda mengaktifkan Editor Alur Lakeflow , Anda juga akan melihat opsi untuk membuat proyek alur ETL. Templat kustom apa pun yang dikonfigurasi di ruang kerja, juga akan tersedia.

    Membuat dialog bundel aset baru

  5. Beberapa templat memerlukan konfigurasi tambahan. Klik Berikutnya untuk menyelesaikan konfigurasi proyek.

    Template Opsi konfigurasi
    Alur Deklaratif Lakeflow Spark
    • Katalog default yang digunakan untuk data alur
    • Gunakan skema pribadi (disarankan) untuk setiap pengguna yang berkolaborasi pada bundel ini
    • Bahasa awal untuk file kode dalam pipeline
    Python default
    • Menyertakan contoh buku catatan
    • Menyertakan alur sampel
    • Menyertakan sampel paket Python
    • Menggunakan komputasi tanpa server
    Default SQL
    • Jalur penyimpanan data SQL
    • Katalog awal
    • Menggunakan skema pribadi
    • Skema awal selama pengembangan
  6. Klik Buat dan sebarkan.

Ini membuat bundel awal di folder Git, yang mencakup file untuk templat proyek yang Anda pilih, .gitignore file konfigurasi Git, dan file Bundel databricks.yml Automasi Deklaratif yang dibutuhkan. File databricks.yml berisi konfigurasi utama untuk bundel. Untuk detailnya, lihat Konfigurasi Bundel Otomatisasi Deklaratif.

Bundel aset baru

Setiap perubahan yang dilakukan pada file dalam bundel dapat disinkronkan dengan repositori jarak jauh yang terkait dengan folder Git. Folder Git dapat berisi banyak bundel.

Menambahkan file baru ke bundel

Bundel berisi file databricks.yml yang mendefinisikan konfigurasi untuk penyebaran dan ruang kerja, file sumber seperti buku catatan, file Python, dan file pengujian, serta definisi dan pengaturan untuk sumber daya Databricks seperti Pekerjaan Lakeflow dan Alur Deklaratif Lakeflow Spark. Mirip dengan folder ruang kerja apa pun, Anda dapat menambahkan file baru ke bundel Anda.

Petunjuk / Saran

Untuk membuka tab baru ke tampilan bundel yang memungkinkan Anda mengubah file bundel, navigasikan ke folder bundel di ruang kerja, lalu klik Buka di editor di sebelah kanan nama bundel.

Menambahkan file kode sumber

Untuk menambahkan buku catatan baru atau file lain ke bundel di antarmuka pengguna ruang kerja, navigasikan ke folder bundel, lalu:

  • Klik Buat di kanan atas dan pilih salah satu tipe file berikut untuk ditambahkan ke bundel Anda: Buku Catatan, File, Kueri, Dasbor.
  • Atau, klik kebab di sebelah kiri Berbagi dan impor file.

Nota

Agar file dapat termasuk dalam penyebaran bundel, setelah Anda menambahkan file ke dalam folder bundel, Anda harus memasukkannya dalam konfigurasi bundel databricks.yml, atau membuat file definisi pekerjaan atau pipeline yang menyertakannya. Lihat Menambahkan sumber daya yang sudah ada ke bundel.

Membuat definisi sumber daya

Bundel berisi definisi untuk sumber daya seperti pekerjaan dan alur untuk disertakan dalam penyebaran. Saat bundel disebarkan, sumber daya yang ditentukan dalam bundel dibuat di ruang kerja (atau diperbarui jika telah disebarkan). Definisi ini ditentukan dalam YAML atau Python, dan Anda dapat membuat dan mengedit konfigurasi ini langsung di UI.

  1. Navigasikan ke folder bundel di ruang kerja tempat Anda ingin menentukan sumber daya baru.

    Petunjuk / Saran

    Jika sebelumnya Anda telah membuka bundel di editor di ruang kerja, Anda dapat menggunakan daftar konteks penulisan browser ruang kerja untuk menavigasi ke folder bundel. Lihat Konteks penulisan.

  2. Di sebelah kanan nama bundel, klik Buka di editor untuk menavigasi ke tampilan editor bundel.

  3. Klik ikon penyebaran untuk bundel untuk beralih ke panel Penyebaran .

    Ikon panel penerapan

  4. Di bagian Bundel sumber daya , klik Tambahkan, lalu pilih definisi sumber daya untuk dibuat.

Definisi pekerjaan baru

Untuk membuat file konfigurasi bundel yang menentukan pekerjaan:

  1. Di bagian Bundel sumber daya dari panel Penyebaran , klik Tambahkan, lalu Definisi pekerjaan baru.

    Membuat definisi pekerjaan

  2. Ketik nama untuk pekerjaan tersebut ke dalam bidang Nama pekerjaan dari dialog Buat definisi pekerjaan . Klik Buat.

  3. Tambahkan YAML ke file definisi pekerjaan yang dibuat. Contoh YAML berikut menentukan pekerjaan yang menjalankan buku catatan:

    resources:
      jobs:
        run_notebook:
          name: run-notebook
          queue:
            enabled: true
          tasks:
            - task_key: my-notebook-task
              notebook_task:
                notebook_path: ../helloworld.ipynb
    

Untuk detail tentang menentukan pekerjaan di YAML, lihat pekerjaan. Untuk sintaks YAML untuk jenis tugas pekerjaan lain yang didukung, lihat Menambahkan tugas ke pekerjaan di Bundel Automasi Deklaratif.

Definisi alur baru

Nota

Jika Anda telah mengaktifkan Editor Alur Lakeflow di ruang kerja Anda, lihat Alur ETL baru.

Untuk menambahkan definisi alur ke bundel Anda:

  1. Di bagian Bundel sumber daya dari panel Penyebaran , klik Tambahkan, lalu Definisi alur baru.

  2. Ketik nama untuk alur ke bidang Nama alur dari dialog Tambahkan alur ke bundel yang sudah ada .

  3. Klik Tambahkan dan sebarkan.

Untuk alur dengan nama test_pipeline yang menjalankan notebook, YAML berikut dibuat dalam file test_pipeline.pipeline.yml:

resources:
  pipelines:
    test_pipeline:
      name: test_pipeline
      libraries:
        - notebook:
            path: ../test_pipeline.ipynb
      serverless: true
      catalog: main
      target: test_pipeline_${bundle.environment}

Anda bisa mengubah konfigurasi untuk menjalankan buku catatan yang sudah ada. Untuk detail tentang menentukan alur di YAML, lihat alur.

Alur ETL baru

Untuk menambahkan definisi alur ETL baru:

  1. Di bagian Bundel sumber daya dari panel Penyebaran , klik Tambahkan, lalu Alur ETL baru.

  2. Ketik nama untuk alur ke bidang Nama dari dialog Tambahkan alur ke bundel yang sudah ada . Nama harus unik dalam ruang kerja.

  3. Untuk bidang Gunakan skema pribadi , pilih Ya untuk skenario pengembangan dan Tidak untuk skenario produksi.

  4. Pilih Katalog default dan Skema default untuk alur.

  5. Pilih bahasa untuk kode sumber alur.

  6. Klik Tambahkan dan sebarkan.

    Membuat dialog alur ETL

  7. Tinjau detail dalam dialog konfirmasi Penerapan ke pengembangan, lalu klik Deploy.

Alur ETL dibuat dengan contoh tabel eksplorasi dan transformasi.

Alur ETL dalam bundel di ruang kerja

Untuk alur dengan nama rad_pipeline, YAML berikut dibuat dalam file rad_pipeline.pipeline.yml. Alur ini dikonfigurasi untuk berjalan pada komputasi tanpa server. Untuk referensi konfigurasi alur, lihat alur.

resources:
  pipelines:
    rad_pipeline:
      name: rad_pipeline
      libraries:
        - glob:
            include: transformations/**
      serverless: true
      catalog: main
      schema: ${workspace.current_user.short_name}
      root_path: .

Definisi dasbor baru

Untuk membuat file konfigurasi bundel yang mengkonfigurasi dasbor:

  1. Di bagian Bundel sumber daya dari panel Penyebaran , klik Tambahkan, lalu Definisi dasbor baru.

  2. Ketik nama untuk dasbor ke dalam bidang Nama dasbordari dialog Tambahkan dasbor ke bundel yang sudah ada .

  3. Pilih Gudang untuk dashboard. Klik Tambahkan dan sebarkan.

Dasbor baru yang kosong dan file konfigurasi *.dashboard.yml dibuat di dalam bundel. Dasbor disimpan di gudang yang ditentukan dalam file konfigurasi.

Untuk detail tentang dasbor, lihat Dasbor. Untuk sintaks YAML untuk konfigurasi dasbor, lihat dasbor.

Menambahkan sumber daya yang ada ke bundel

Anda dapat menambahkan sumber daya yang ada ke bundel Anda menggunakan UI ruang kerja atau dengan menambahkan konfigurasi sumber daya ke bundel Anda.

Penggunaan UI ruang kerja bundel

Untuk menambahkan pekerjaan, alur, atau dasbor yang sudah ada ke bundel:

  1. Navigasikan ke folder bundel di ruang kerja tempat Anda ingin menambahkan sumber daya.

    Petunjuk / Saran

    Jika sebelumnya Anda telah membuka bundel di editor di ruang kerja, Anda dapat menggunakan daftar konteks penulisan browser ruang kerja untuk menavigasi ke folder bundel. Lihat Konteks penulisan.

  2. Di sebelah kanan nama bundel, klik Buka di editor untuk menavigasi ke tampilan editor bundel.

  3. Klik ikon penyebaran untuk bundel untuk beralih ke panel Penyebaran .

  4. Di bagian Bundel sumber daya , klik Tambahkan, lalu klik Tambahkan pekerjaan yang sudah ada, Tambahkan alur yang sudah ada, atau Tambahkan dasbor yang sudah ada.

    Menambahkan pekerjaan, alur, atau dasbor yang sudah ada

  5. Dalam dialog Tambahkan ... yang sudah ada , pilih sumber daya yang ada dari menu drop-down.

  6. Saat Anda menambahkan sumber daya yang ada ke bundel, Databricks membuat definisi dalam file konfigurasi bundel untuk sumber daya ini. Karena Anda dapat mengubah definisi ini dalam bundel, sumber daya yang ditentukan dalam bundel dapat menyimpang dari sumber daya yang digunakan untuk membuatnya.

    Pilih opsi untuk cara menangani pembaruan pada konfigurasi sumber daya bundel:

    • Pembaruan pada penyebaran produksi: Sumber daya yang ada akan dihubungkan dengan sumber daya dalam bundel, dan perubahan yang Anda buat pada sumber daya dalam bundel akan diterapkan ke sumber daya yang ada saat Anda melakukan penyebaran ke prod target.
    • Pembaruan tentang penyebaran pengembangan: Sumber daya yang ada akan ditautkan ke sumber daya dalam bundel, dan perubahan apapun yang Anda lakukan pada sumber daya dalam bundel akan diterapkan pada sumber daya yang ada ketika Anda menyebarkan ke dev target.
    • (Tingkat Lanjut) Jangan perbarui: Sumber daya yang ada tidak ditautkan ke bundel. Perubahan yang dilakukan pada sumber daya dalam bundel tidak pernah diterapkan ke sumber daya yang ada. Sebagai gantinya, salinan dibuat. Untuk informasi selengkapnya tentang mengikat sumber daya bundel ke sumber daya ruang kerja yang sesuai, lihat pengikatan penyebaran bundel databricks.
  7. Klik Tambahkan ... untuk menambahkan sumber daya yang ada ke bundel.

Tambahkan konfigurasi bundel

Sumber daya yang ada juga dapat ditambahkan ke bundel Anda dengan menentukan konfigurasi bundel untuk menyertakannya dalam penyebaran bundel Anda. Contoh berikut menambahkan alur yang ada ke bundel.

Misalkan Anda memiliki alur bernama taxifilter yang menjalankan taxifilter.ipynb buku catatan di ruang kerja bersama Anda:

  1. Di bilah sisi ruang kerja Azure Databricks Anda, klik Tugas & Pipeline.

  2. Secara opsional, pilih filter Pipelines dan Milik saya.

  3. Pilih alur yang taxifilter ada.

  4. Di halaman pipeline, klik menu kebab di sebelah kiri tombol mode penyebaran Development. Lalu klik Tampilkan pengaturan YAML.

  5. Klik ikon salin untuk menyalin konfigurasi bundel untuk alur.

  6. Navigasikan ke bundel Anda di Ruang Kerja.

  7. Klik ikon penyebaran untuk bundel untuk beralih ke panel Penyebaran .

  8. Di bagian Bundel sumber daya , klik Tambahkan, lalu Definisi alur baru.

    Nota

    Jika Anda melihat item menu alur ETL Baru, maka Anda memiliki Editor Alur Lakeflow teraktifkan. Untuk menambahkan alur ETL ke bundel, lihat Membuat alur yang dikontrol sumber.

  9. Ketik taxifilter ke bidang Nama alur dari dialog Tambahkan alur ke bundel yang sudah ada . Klik Buat.

  10. Tempelkan konfigurasi untuk alur yang ada ke dalam file. Contoh alur ini didefinisikan untuk menjalankan notebook taxifilter.

    resources:
      pipelines:
        taxifilter:
          name: taxifilter
          catalog: main
          libraries:
            - notebook:
                path: /Workspace/Shared/taxifilter.ipynb
          target: taxifilter_${bundle.environment}
    

Anda sekarang dapat menyebarkan bundel, lalu menjalankan sumber daya alur melalui UI.