Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Bundel Otomatisasi Deklaratif (sebelumnya dikenal sebagai Bundel Aset Databricks) memungkinkan Anda memvalidasi, menyebarkan, dan menjalankan sumber daya Azure Databricks secara terprogram seperti Lakeflow Spark Declarative Pipelines. Lihat Apa itu Bundel Otomatisasi Deklaratif?.
Halaman ini menjelaskan cara membuat bundel untuk mengelola alur secara terprogram. Lihat Alur Deklaratif Lakeflow Spark. Bundel dibuat menggunakan perintah Databricks CLIpipelines init, yang menentukan alur ETL dan pekerjaan untuk menjalankannya. Anda kemudian memvalidasi, menyebarkan, dan menjalankan alur yang disebarkan di ruang kerja Azure Databricks Anda pada komputasi tanpa server.
Petunjuk
Jika Anda memiliki alur yang sudah ada yang dibuat menggunakan antarmuka pengguna Azure Databricks atau API yang ingin Anda pindahkan ke bundel, Anda harus menentukannya dalam file konfigurasi bundel. Databricks merekomendasikan agar Anda terlebih dahulu membuat bundel menggunakan langkah-langkah di bawah ini, lalu menambahkan konfigurasi dan sumber lain ke bundel. Lihat Mengambil definisi alur yang ada menggunakan UI.
Persyaratan
- Databricks CLI versi 0.283.0 atau lebih tinggi. Untuk memeriksa versi Databricks CLI yang diinstal, jalankan perintah
databricks -v. Untuk menginstal Databricks CLI, lihat Menginstal atau memperbarui Databricks CLI. - uv diperlukan untuk menjalankan pengujian dan untuk menginstal dependensi untuk proyek ini dari IDE.
- Ruang kerja jarak jauh harus memiliki pengaturan file ruang kerja yang diaktifkan. Lihat Apa itu file ruang kerja?.
- Katalog yang sudah ada untuk tabel dalam pipeline. Lihat "Buat katalog".
(Opsional) Menginstal modul Python untuk mendukung pengembangan alur lokal
Databricks menyediakan modul Python untuk membantu pengembangan lokal kode Alur Deklaratif Lakeflow Spark Anda dengan memberikan pemeriksaan sintaks, lengkapi otomatis, dan pemeriksaan jenis data saat Anda menulis kode di IDE Anda.
Modul Python untuk pengembangan lokal tersedia di PyPi. Untuk menginstal modul, lihat Python stub untuk DLT.
Langkah 1: Menyiapkan autentikasi
Pertama, siapkan autentikasi antara Databricks CLI di komputer pengembangan Anda dan ruang kerja Azure Databricks Anda. Halaman ini mengasumsikan bahwa Anda ingin menggunakan autentikasi pengguna-ke-mesin (U2M) OAuth dan profil konfigurasi Azure Databricks terkait bernama DEFAULT untuk autentikasi.
Catatan
Autentikasi U2M sesuai untuk mencoba langkah-langkah ini secara real time. Untuk alur kerja yang sepenuhnya otomatis, Databricks menyarankan agar Anda menggunakan autentikasi mesin-ke-mesin (M2M) OAuth sebagai gantinya. Lihat instruksi penyiapan autentikasi M2M di Mengotorisasi akses perwakilan layanan ke Azure Databricks dengan OAuth.
Gunakan Databricks CLI untuk memulai manajemen token OAuth secara lokal dengan menjalankan perintah berikut untuk setiap ruang kerja target.
Dalam perintah berikut, ganti
<workspace-url>dengan URL per ruang kerja Azure Databricks Anda, misalnyahttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --host <workspace-url>Databricks CLI meminta Anda untuk menyimpan informasi yang Anda masukkan sebagai profil konfigurasi Azure Databricks. Tekan
Enteruntuk menerima nama profil yang disarankan, atau masukkan nama profil baru atau yang sudah ada. Profil yang sudah ada dengan nama yang sama akan ditimpa dengan informasi yang Anda masukkan. Anda dapat menggunakan profil untuk mengalihkan konteks autentikasi dengan cepat di beberapa ruang kerja.Untuk mendapatkan daftar profil yang ada, di terminal atau prompt perintah terpisah, gunakan Databricks CLI untuk menjalankan perintah
databricks auth profiles. Untuk melihat pengaturan profil tertentu yang sudah ada, jalankan perintahdatabricks auth env --profile <profile-name>.Di browser web Anda, selesaikan instruksi di layar untuk masuk ke ruang kerja Azure Databricks Anda.
Untuk melihat nilai token OAuth profil saat ini dan tanda waktu kedaluwarsa token yang akan datang, jalankan salah satu perintah berikut:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Jika Anda memiliki beberapa profil dengan nilai yang sama
--host, Anda mungkin perlu menentukan--hostopsi dan-pbersama-sama untuk membantu Databricks CLI menemukan informasi token OAuth yang cocok dengan benar.
Langkah 2: Buat bundel
Menginisialisasi bundel dengan alur:
Gunakan terminal atau perintah Anda untuk beralih ke direktori pada komputer pengembangan lokal Anda yang akan berisi bundel templat yang dihasilkan.
Gunakan Databricks CLI untuk menjalankan
pipelines initperintah:databricks pipelines initUntuk
Unique name for this project, biarkan nilaimy_pipeline_projectdefault , atau ketik nilai yang berbeda, lalu tekanEnter. Ini menentukan nama direktori akar untuk bundel ini. Direktori akar ini dibuat dalam direktori kerja Anda saat ini.Untuk
Initial catalog, masukkan nama katalog Unity Catalog yang sudah ada.Untuk
Use a personal schema for each user working on this project?, pilihyes.Untuk
Initial language for this project, pilihpython.
Langkah 3: Jelajahi bundel
Untuk melihat file yang dihasilkan templat, beralihlah ke direktori akar bundel yang baru Dibuat. Struktur berikut dibuat secara default:
my_pipeline_project
├── databricks.yml
├── pyproject.toml
├── README.md
├── resources
│ ├── my_pipeline_project_etl.pipeline.yml
│ └── sample_job.job.yml
└── src
└── my_pipeline_project_etl
├── explorations
│ └── sample_exploration.ipynb
├── README.md
└── transformations
├── sample_trips_my_pipeline_project.py
└── sample_zones_my_pipeline_project.py
File yang menarik meliputi yang berikut ini:
databricks.yml: File ini menentukan nama terprogram bundel, termasuk referensi ke file bundel, menentukan variabel katalog dan skema, dan menentukan pengaturan untuk ruang kerja target.resources/sample_job.job.ymldanresources/<project-name>_etl_pipeline.yml: File-file ini menentukan pekerjaan yang berisi tugas refresh alur, dan pengaturan alur. Untuk informasi tentang pengaturan alur, lihat alur.src/: Folder ini berisi file sumber dari alur contoh, eksplorasi, dan transformasi.Petunjuk
Jika Anda menambahkan pengujian, gunakan
pytestuntuk menjalankannya secara lokal:uv run pytestREADME.md: File ini berisi informasi tambahan tentang memulai dan menggunakan templat bundel ini.
Langkah 4: Memvalidasi konfigurasi bundel
Sekarang periksa apakah konfigurasi bundel valid.
Dari direktori akar, gunakan Databricks CLI untuk menjalankan
bundle validateperintah:databricks bundle validateJika ringkasan konfigurasi bundel dikembalikan, maka validasi berhasil. Jika ada kesalahan yang dikembalikan, perbaiki kesalahan, lalu ulangi langkah ini.
Langkah 5: Menyebarkan alur ke ruang kerja jarak jauh
Selanjutnya, sebarkan bundel ke ruang kerja Azure Databricks jarak jauh Anda dan verifikasi alur di ruang kerja Anda.
Dari akar bundel, gunakan perintah Databricks CLI
deploy:databricks bundle deploy --target devAtau:
databricks pipelines deploy --target devCatatan
Templat bawaan menyertakan pekerjaan yang menjalankan pipeline setiap hari, tetapi ini dijeda untuk mode penyebaran target
dev. Lihat Mode penyebaran Bundel Otomatisasi Deklaratif.Pastikan bahwa paket telah dibuat tersedia.
- Di bilah samping ruang kerja Azure Databricks Anda, klik Ruang Kerja.
- Klik folder Pengguna >
<your-username>>.bundledan temukan proyek bundel Anda.
Periksa apakah alur kerja Anda telah dibuat:
- Di bilah sisi ruang kerja Azure Databricks Anda, klik
Tugas & Pipeline . - Secara opsional, pilih filter Pipelines dan Milik saya.
- Klik [dev
<your-username>]<project-name>_etl.
- Di bilah sisi ruang kerja Azure Databricks Anda, klik
Jika Anda membuat perubahan pada bundel setelah langkah ini, Anda harus mengulangi langkah 4-5 untuk memeriksa apakah konfigurasi bundel Anda masih valid lalu menyebarkan ulang proyek.
Langkah 6: Jalankan alur kerja yang sudah dijalankan
Sekarang picu eksekusi pipeline di ruang kerja Anda melalui baris perintah.
Dari direktori akar, gunakan perintah Databricks CLI
pipelines run. Jika hanya ada satu alur dalam proyek, Anda tidak perlu menentukan nama alur.databricks pipelines run my_pipeline_project_etl --target devSalin nilai
Update URLyang muncul di terminal Anda dan tempelkan nilai ini ke browser web Anda untuk membuka ruang kerja Azure Databricks Anda.Di ruang kerja Azure Databricks Anda, setelah eksekusi alur berhasil diselesaikan, klik tampilan materialisasi untuk melihat detail setiap tampilan.
Jika Anda membuat perubahan pada bundel setelah langkah ini, Anda harus mengulangi langkah 4-6 untuk memeriksa apakah konfigurasi bundel Anda masih valid, menyebarkan ulang proyek, dan menjalankan proyek yang disebarkan ulang.
Langkah 7: Riwayat output dan log peristiwa
Informasi yang diberikan oleh perintah pipelines history dan pipelines logs dapat membantu mendiagnosis kegagalan.
Untuk mengambil pengulangan sebelumnya untuk alur:
databricks pipelines history my_pipeline_project_etl
Updates Summary for pipeline my_pipeline_project_etl:
Update ID: a62293ec-8a63-43b7-8629-b218d56dac7c
State: COMPLETED
Cause: API_CALL
Creation Time: 2026-01-29T23:16:14Z
Full Refresh: false
Validate Only: false
Untuk menghasilkan output (dalam JSON) dari event pembaruan terbaru pipeline:
databricks pipelines logs my_pipeline_project_etl
Gunakan jq untuk memfilter hasilnya. Lihat Memfilter output JSON dengan jq.
Langkah 8: Bersihkan
Dalam langkah ini, Anda menghapus bundel yang disebarkan dan saluran dari ruang kerja Anda.
Dari direktori akar, gunakan Databricks CLI untuk menjalankan
pipelines destroyperintah:databricks pipelines destroy --target devKetika diminta untuk menghancurkan sumber daya secara permanen, termasuk alur serta tabel dan view yang dikelola oleh alur tersebut, ketik
ydan tekanEnter.Jika Anda juga ingin menghapus bundel dari komputer pengembangan, Anda sekarang dapat menghapus direktori proyek lokal.