Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini mencantumkan pertanyaan yang sering diajukan tentang Bundel Otomatisasi Deklaratif (sebelumnya dikenal sebagai Bundel Aset Databricks).
Mengapa Bundel Aset Databricks diganti namanya menjadi Bundel Automasi Deklaratif?
Nama baru Bundel Otomatisasi Deklaratif lebih akurat mencerminkan penggunaan dan kemampuan bundel. Selain itu, istilah aset menyebabkan beberapa kebingungan karena memiliki lebih dari satu arti dalam Databricks. Perubahan nama ini tidak menyebabkan gangguan. Perintah bundle CLI dan semua konfigurasi Anda yang ada tidak perlu dimodifikasi.
Bagaimana cara menggunakan Bundel Otomatisasi Deklaratif sebagai bagian dari alur CI/CD saya di Azure Databricks?
Anda dapat menggunakan Bundel Otomatisasi Deklaratif untuk menentukan dan mengelola aset secara terprogram dalam implementasi CI/CD Azure Databricks Anda, yang biasanya mencakup:
- Notebooks: Notebook Azure Databricks sering menjadi bagian penting dari rekayasa data dan alur kerja ilmu data. Anda dapat menggunakan kontrol versi untuk notebook, dan juga memvalidasi dan mengujinya sebagai bagian dari alur CI/CD. Anda dapat menjalankan pengujian otomatis terhadap notebook untuk memeriksa apakah mereka berfungsi seperti yang diharapkan.
- Pustaka: Kelola dependensi pustaka yang diperlukan untuk menjalankan kode yang Anda sebarkan. Gunakan kontrol versi pada pustaka dan sertakan dalam pengujian dan validasi otomatis.
- Alur kerja: Pekerjaan Lakeflow terdiri dari pekerjaan yang memungkinkan Anda menjadwalkan dan menjalankan tugas otomatis menggunakan buku catatan atau pekerjaan Spark.
- Alur data: Anda juga dapat menyertakan alur data dalam otomatisasi CI/CD, menggunakan Lakeflow Spark Declarative Pipelines, kerangka kerja dalam Databricks untuk mendeklarasikan alur data.
- Infrastruktur: Konfigurasi infrastruktur mencakup definisi dan informasi provisi untuk kluster, ruang kerja, dan penyimpanan untuk lingkungan target. Perubahan infrastruktur dapat divalidasi dan diuji sebagai bagian dari alur CI/CD, memastikan bahwa mereka konsisten dan bebas kesalahan.
Mengapa saya harus memiliki lingkungan target pengembangan dan produksi terpisah?
Lingkungan pengembangan dan produksi terpisah memungkinkan Anda untuk:
- Isolasi perubahan pengembangan dengan aman agar tidak berdampak pada produksi secara tidak sengaja.
- Cegah duplikasi kode dengan menyesuaikan sumber daya untuk diterapkan ke lingkungan target tertentu.
- Menyederhanakan CI/CD dengan konfigurasi khusus lingkungan, seperti jalur database, alert, dan kontrol akses.
- Gunakan kembali alur kerja di seluruh tim dan lingkungan.
Gunakan target untuk menentukan lingkungan penyebaran bundel. Lihat sasaran.
Bagaimana cara membuat paket saya konsisten di seluruh organisasi?
Gunakan templat bundel untuk struktur yang konsisten, untuk mengurangi kesalahan penyiapan, dan untuk mempromosikan praktik terbaik. Anda dapat menggunakan templat bundel default atau Anda dapat membuat templat bundel kustom Anda sendiri. Lihat Templat proyek Bundel Otomatisasi Deklaratif.
Ada banyak pengulangan di seluruh bundel saya, seperti definisi kluster yang sama. Apa cara terbaik untuk menangani ini?
Variabel kustom adalah cara terbaik untuk menangani pengulangan, serta pengaturan yang spesifik konteks. Lihat Variabel kustom.
Apa saja praktik terbaik saat menggunakan bundel dalam alur penyebaran saya?
Databricks merekomendasikan agar Anda:
- Beralih dari penyebaran manual ke otomatisasi yang andal menggunakan alur kerja terintegrasi Git.
- Validasi sebelum menyebarkan bundel menggunakan
databricks bundle validatedi alur CI/CD Anda. - Pisahkan langkah-langkah penyebaran untuk memastikan perubahan ditinjau dan disengaja.
- Mengatur parameter lingkungan (dev, staging, prod) dengan penyesuaian agar perubahan terisolasi.
- Jalankan pengujian integrasi pasca-penyebaran untuk menangkap masalah lebih awal.
- Gunakan GitHub Actions, Azure DevOps, atau GitLab CI untuk memicu deploy saat commit atau penggabungan PR.
- Lacak apa yang disebarkan, di mana, dan kapan, sehingga setiap penyebaran memetakan ke versi penerapan dan bundel.
Dapatkah saya memigrasi pekerjaan, alur, dasbor, dan objek Databricks yang ada ke dalam bundel saya?
Ya.
databricks bundle generate Gunakan perintah untuk menghasilkan file konfigurasi untuk pekerjaan, alur, atau dasbor yang ada di bundel lokal Anda, lalu gunakan databricks bundle deployment bind untuk mengikat sumber daya bundel ke sumber daya yang sesuai di ruang kerja. Ini sangat ideal untuk mengintegrasikan alur kerja yang ada ke dalam pengembangan yang terstruktur dan memiliki versi. Pengikatan juga menyelesaikan jalur relatif ke referensi ruang kerja absolut, yang menghindari kesalahan jalur.
Lihat Memigrasikan sumber daya yang ada ke bundel.
Bagaimana cara menguji bundel saya secara berulang?
Anda dapat mengembangkan lebih cepat dengan penyebaran dan eksekusi berulang:
- Memvalidasi sebelum menyebarkan
- Menyebarkan secara bertahap
- Jalankan hanya apa yang diperlukan
- Edit dan ulangi
Ini mempercepat pengujian dan debugging, mengurangi pemindahan konteks, memungkinkan perulangan yang lebih aman dan lebih cepat tanpa melakukan penyebaran ulang secara penuh, dan memberlakukan disiplin saat Anda menuju produksi.