Mengembangkan alur dengan Bundel Otomatisasi Deklaratif

Bundel Otomatisasi Deklaratif (sebelumnya dikenal sebagai Bundel Aset Databricks) memungkinkan Anda memvalidasi, menyebarkan, dan menjalankan sumber daya Azure Databricks secara terprogram seperti Lakeflow Spark Declarative Pipelines. Lihat Apa itu Bundel Otomatisasi Deklaratif?.

Halaman ini menjelaskan cara membuat bundel untuk mengelola alur secara terprogram. Lihat Alur Deklaratif Lakeflow Spark. Bundel dibuat menggunakan perintah Databricks CLIpipelines init, yang menentukan alur ETL dan pekerjaan untuk menjalankannya. Anda kemudian memvalidasi, menyebarkan, dan menjalankan alur yang disebarkan di ruang kerja Azure Databricks Anda pada komputasi tanpa server.

Petunjuk

Jika Anda memiliki alur yang sudah ada yang dibuat menggunakan antarmuka pengguna Azure Databricks atau API yang ingin Anda pindahkan ke bundel, Anda harus menentukannya dalam file konfigurasi bundel. Databricks merekomendasikan agar Anda terlebih dahulu membuat bundel menggunakan langkah-langkah di bawah ini, lalu menambahkan konfigurasi dan sumber lain ke bundel. Lihat Mengambil definisi alur yang ada menggunakan UI.

Persyaratan

Databricks CLI versi 0.283.0 atau lebih tinggi. Untuk memeriksa versi Databricks CLI yang diinstal, jalankan perintah databricks -v. Untuk menginstal Databricks CLI, lihat Menginstal atau memperbarui Databricks CLI.
uv diperlukan untuk menjalankan pengujian dan untuk menginstal dependensi untuk proyek ini dari IDE.
Ruang kerja jarak jauh harus memiliki pengaturan file ruang kerja yang diaktifkan. Lihat Apa itu file ruang kerja?.
Katalog yang sudah ada untuk tabel dalam pipeline. Lihat "Buat katalog".

(Opsional) Menginstal modul Python untuk mendukung pengembangan alur lokal

Databricks menyediakan modul Python untuk membantu pengembangan lokal kode Alur Deklaratif Lakeflow Spark Anda dengan memberikan pemeriksaan sintaks, lengkapi otomatis, dan pemeriksaan jenis data saat Anda menulis kode di IDE Anda.

Modul Python untuk pengembangan lokal tersedia di PyPi. Untuk menginstal modul, lihat Python stub untuk DLT.

Langkah 1: Menyiapkan autentikasi

Pertama, siapkan autentikasi antara Databricks CLI di komputer pengembangan Anda dan ruang kerja Azure Databricks Anda. Halaman ini mengasumsikan bahwa Anda ingin menggunakan autentikasi pengguna-ke-mesin (U2M) OAuth dan profil konfigurasi Azure Databricks terkait bernama DEFAULT untuk autentikasi.

Catatan

Autentikasi U2M sesuai untuk mencoba langkah-langkah ini secara real time. Untuk alur kerja yang sepenuhnya otomatis, Databricks menyarankan agar Anda menggunakan autentikasi mesin-ke-mesin (M2M) OAuth sebagai gantinya. Lihat instruksi penyiapan autentikasi M2M di Mengotorisasi akses perwakilan layanan ke Azure Databricks dengan OAuth.

Gunakan Databricks CLI untuk memulai manajemen token OAuth secara lokal dengan menjalankan perintah berikut untuk setiap ruang kerja target.

Dalam perintah berikut, ganti <workspace-url> dengan URL per ruang kerja Azure Databricks Anda, misalnya https://adb-1234567890123456.7.azuredatabricks.net.
```
databricks auth login --host <workspace-url>
```
Databricks CLI meminta Anda untuk menyimpan informasi yang Anda masukkan sebagai profil konfigurasi Azure Databricks. Tekan Enter untuk menerima nama profil yang disarankan, atau masukkan nama profil baru atau yang sudah ada. Profil yang sudah ada dengan nama yang sama akan ditimpa dengan informasi yang Anda masukkan. Anda dapat menggunakan profil untuk mengalihkan konteks autentikasi dengan cepat di beberapa ruang kerja.

Untuk mendapatkan daftar profil yang ada, di terminal atau prompt perintah terpisah, gunakan Databricks CLI untuk menjalankan perintah databricks auth profiles. Untuk melihat pengaturan profil tertentu yang sudah ada, jalankan perintah databricks auth env --profile <profile-name>.
Di browser web Anda, selesaikan instruksi di layar untuk masuk ke ruang kerja Azure Databricks Anda.
Untuk melihat nilai token OAuth profil saat ini dan tanda waktu kedaluwarsa token yang akan datang, jalankan salah satu perintah berikut:
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
Jika Anda memiliki beberapa profil dengan nilai yang sama --host , Anda mungkin perlu menentukan --host opsi dan -p bersama-sama untuk membantu Databricks CLI menemukan informasi token OAuth yang cocok dengan benar.

Langkah 2: Buat bundel

Menginisialisasi bundel dengan alur:

Gunakan terminal atau perintah Anda untuk beralih ke direktori pada komputer pengembangan lokal Anda yang akan berisi bundel templat yang dihasilkan.
Gunakan Databricks CLI untuk menjalankan pipelines init perintah:
```
databricks pipelines init
```
Untuk Unique name for this project, biarkan nilai my_pipeline_projectdefault , atau ketik nilai yang berbeda, lalu tekan Enter. Ini menentukan nama direktori akar untuk bundel ini. Direktori akar ini dibuat dalam direktori kerja Anda saat ini.
Untuk Initial catalog, masukkan nama katalog Unity Catalog yang sudah ada.
Untuk Use a personal schema for each user working on this project?, pilih yes.
Untuk Initial language for this project, pilih python.

Langkah 3: Jelajahi bundel

Untuk melihat file yang dihasilkan templat, beralihlah ke direktori akar bundel yang baru Dibuat. Struktur berikut dibuat secara default:

my_pipeline_project
├── databricks.yml
├── pyproject.toml
├── README.md
├── resources
│   ├── my_pipeline_project_etl.pipeline.yml
│   └── sample_job.job.yml
└── src
    └── my_pipeline_project_etl
        ├── explorations
        │   └── sample_exploration.ipynb
        ├── README.md
        └── transformations
            ├── sample_trips_my_pipeline_project.py
            └── sample_zones_my_pipeline_project.py

File yang menarik meliputi yang berikut ini:

databricks.yml: File ini menentukan nama terprogram bundel, termasuk referensi ke file bundel, menentukan variabel katalog dan skema, dan menentukan pengaturan untuk ruang kerja target.
resources/sample_job.job.yml dan resources/<project-name>_etl_pipeline.yml: File-file ini menentukan pekerjaan yang berisi tugas refresh alur, dan pengaturan alur. Untuk informasi tentang pengaturan alur, lihat alur.
src/: Folder ini berisi file sumber dari alur contoh, eksplorasi, dan transformasi.
Petunjuk

Jika Anda menambahkan pengujian, gunakan pytest untuk menjalankannya secara lokal:
```
uv run pytest
```
README.md: File ini berisi informasi tambahan tentang memulai dan menggunakan templat bundel ini.

Langkah 4: Memvalidasi konfigurasi bundel

Sekarang periksa apakah konfigurasi bundel valid.

Dari direktori akar, gunakan Databricks CLI untuk menjalankan bundle validate perintah:
```
databricks bundle validate
```
Jika ringkasan konfigurasi bundel dikembalikan, maka validasi berhasil. Jika ada kesalahan yang dikembalikan, perbaiki kesalahan, lalu ulangi langkah ini.

Langkah 5: Menyebarkan alur ke ruang kerja jarak jauh

Selanjutnya, sebarkan bundel ke ruang kerja Azure Databricks jarak jauh Anda dan verifikasi alur di ruang kerja Anda.

Dari akar bundel, gunakan perintah Databricks CLI deploy :
```
databricks bundle deploy --target dev
```
Atau:
```
databricks pipelines deploy --target dev
```
Catatan

Templat bawaan menyertakan pekerjaan yang menjalankan pipeline setiap hari, tetapi ini dijeda untuk mode penyebaran target dev. Lihat Mode penyebaran Bundel Otomatisasi Deklaratif.
Pastikan bahwa paket telah dibuat tersedia.
1. Di bilah samping ruang kerja Azure Databricks Anda, klik Ruang Kerja.
2. Klik folder Pengguna ><your-username>>.bundle dan temukan proyek bundel Anda.
Periksa apakah alur kerja Anda telah dibuat:
1. Di bilah sisi ruang kerja Azure Databricks Anda, klik Tugas & Pipeline.
2. Secara opsional, pilih filter Pipelines dan Milik saya.
3. Klik [dev <your-username>] <project-name>_etl.

Jika Anda membuat perubahan pada bundel setelah langkah ini, Anda harus mengulangi langkah 4-5 untuk memeriksa apakah konfigurasi bundel Anda masih valid lalu menyebarkan ulang proyek.

Langkah 6: Jalankan alur kerja yang sudah dijalankan

Sekarang picu eksekusi pipeline di ruang kerja Anda melalui baris perintah.

Dari direktori akar, gunakan perintah Databricks CLI pipelines run . Jika hanya ada satu alur dalam proyek, Anda tidak perlu menentukan nama alur.
```
databricks pipelines run my_pipeline_project_etl --target dev
```
Salin nilai Update URL yang muncul di terminal Anda dan tempelkan nilai ini ke browser web Anda untuk membuka ruang kerja Azure Databricks Anda.
Di ruang kerja Azure Databricks Anda, setelah eksekusi alur berhasil diselesaikan, klik tampilan materialisasi untuk melihat detail setiap tampilan.

Jika Anda membuat perubahan pada bundel setelah langkah ini, Anda harus mengulangi langkah 4-6 untuk memeriksa apakah konfigurasi bundel Anda masih valid, menyebarkan ulang proyek, dan menjalankan proyek yang disebarkan ulang.

Langkah 7: Riwayat output dan log peristiwa

Informasi yang diberikan oleh perintah pipelines history dan pipelines logs dapat membantu mendiagnosis kegagalan.

Untuk mengambil pengulangan sebelumnya untuk alur:

databricks pipelines history my_pipeline_project_etl

Updates Summary for pipeline my_pipeline_project_etl:
Update ID: a62293ec-8a63-43b7-8629-b218d56dac7c
   State: COMPLETED
   Cause: API_CALL
   Creation Time: 2026-01-29T23:16:14Z
   Full Refresh: false
   Validate Only: false

Untuk menghasilkan output (dalam JSON) dari event pembaruan terbaru pipeline:

databricks pipelines logs my_pipeline_project_etl

Gunakan jq untuk memfilter hasilnya. Lihat Memfilter output JSON dengan jq.

Langkah 8: Bersihkan

Dalam langkah ini, Anda menghapus bundel yang disebarkan dan saluran dari ruang kerja Anda.

Dari direktori akar, gunakan Databricks CLI untuk menjalankan pipelines destroy perintah:
```
databricks pipelines destroy --target dev
```
Ketika diminta untuk menghancurkan sumber daya secara permanen, termasuk alur serta tabel dan view yang dikelola oleh alur tersebut, ketik y dan tekan Enter.
Jika Anda juga ingin menghapus bundel dari komputer pengembangan, Anda sekarang dapat menghapus direktori proyek lokal.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-03-16