Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Bundel Otomatisasi Deklaratif (sebelumnya dikenal sebagai Bundel Aset Databricks) adalah alat untuk memfasilitasi adopsi praktik terbaik rekayasa perangkat lunak, termasuk kontrol sumber, tinjauan kode, pengujian, dan integrasi dan pengiriman berkelanjutan (CI/CD), untuk proyek data dan AI Anda. Bundel menyediakan cara untuk menyertakan metadata bersama file sumber proyek Anda dan memungkinkan untuk menggambarkan sumber daya Databricks seperti pekerjaan dan alur sebagai file sumber. Pada akhirnya bundel adalah definisi menyeluruh dari proyek, termasuk bagaimana proyek harus disusun, diuji, dan disebarkan. Ini membuatnya lebih mudah untuk berkolaborasi pada proyek selama pengembangan aktif.
Kumpulan file sumber dan metadata proyek bundel Anda disebarkan sebagai satu bundel ke lingkungan target Anda. Bundel mencakup bagian-bagian berikut:
- Infrastruktur cloud dan konfigurasi ruang kerja yang diperlukan
- File sumber, seperti buku catatan dan file Python, yang menyertakan logika bisnis
- Definisi dan pengaturan untuk sumber daya Databricks, seperti Pekerjaan Lakeflow, Alur Deklaratif Lakeflow Spark, Dasbor, titik akhir Penyajian Model, Eksperimen MLflow, dan model terdaftar MLflow
- Pengujian unit dan pengujian integrasi
Diagram berikut menyediakan gambaran umum tingkat tinggi dari pengembangan perangkat lunak dan alur CI/CD dengan paket:
Panduan melalui video
Video ini menunjukkan cara bekerja dengan Bundel Otomatisasi Deklaratif (5 menit).
Kapan saya harus menggunakan paket?
Bundel Otomatisasi Deklaratif adalah pendekatan infrastruktur sebagai kode (IaC) untuk mengelola proyek Databricks Anda. Gunakan saat Anda ingin mengelola proyek kompleks di mana beberapa kontributor dan otomatisasi sangat penting, dan integrasi dan penyebaran berkelanjutan (CI/CD) adalah persyaratan. Karena bundel didefinisikan dan dikelola melalui templat dan file YAML yang Anda buat dan pertahankan bersama kode sumber, bundel ini terpetakan dengan baik ke skenario di mana IaC merupakan pendekatan yang tepat.
Beberapa skenario ideal untuk paket meliputi:
- Mengembangkan proyek data, analitik, dan ML di lingkungan berbasis tim. Bundel dapat membantu Anda mengatur dan mengelola berbagai file sumber secara efisien. Ini memastikan kolaborasi yang lancar dan proses yang disederhanakan.
- Mempercepat iterasi pada masalah ML. Kelola sumber daya alur ML (seperti pelatihan dan pekerjaan inferensi batch) dengan menggunakan proyek ML yang mengikuti praktik terbaik produksi dari awal.
- Atur standar organisasi untuk proyek baru dengan menulis templat bundel kustom yang mencakup izin default, perwakilan layanan, dan konfigurasi CI/CD.
- Kepatuhan terhadap peraturan: Dalam industri di mana kepatuhan terhadap peraturan adalah perhatian utama, bundel dapat membantu mempertahankan riwayat versi dari pekerjaan kode dan infrastruktur. Ini membantu dalam tata kelola dan memastikan bahwa standar kepatuhan yang diperlukan terpenuhi.
Bagaimana cara kerja paket?
Metadata bundel didefinisikan menggunakan file YAML yang menentukan artefak, sumber daya, dan konfigurasi proyek Databricks. Databricks CLI kemudian dapat digunakan untuk memvalidasi, menyebarkan, dan menjalankan bundel menggunakan file YAML bundel ini. Anda dapat menjalankan proyek bundel dari IDEs, terminal, atau dalam Databricks secara langsung.
Bundel dapat dibuat secara manual atau berdasarkan templat. Databricks CLI menyediakan templat default untuk kasus penggunaan sederhana, tetapi untuk pekerjaan yang lebih spesifik atau kompleks, Anda dapat membuat templat bundel kustom untuk mengimplementasikan praktik terbaik tim Anda dan menjaga konfigurasi umum tetap konsisten.
Untuk detail selengkapnya tentang KONFIGURASI YAML yang digunakan untuk mengekspresikan Bundel Otomatisasi Deklaratif, lihat Konfigurasi Bundel Otomatisasi Deklaratif.
Apa yang perlu saya instal untuk menggunakan bundel?
Bundel Automasi Deklaratif adalah fitur CLI Databricks. Anda membuat bundel secara lokal, lalu menggunakan Databricks CLI untuk menyebarkan bundel Anda untuk menargetkan ruang kerja Databricks jarak jauh dan menjalankan alur kerja bundel di ruang kerja tersebut dari baris perintah.
Nota
Jika Anda hanya ingin menggunakan bundel di ruang kerja, Anda tidak perlu menginstal Databricks CLI . Lihat Berkolaborasi pada bundel di ruang kerja.
Untuk membangun, menyebarkan, dan menjalankan bundel di ruang kerja Azure Databricks Anda:
Ruang kerja Databricks jarak jauh Anda harus memiliki file ruang kerja yang diaktifkan. Jika Anda menggunakan Databricks Runtime versi 11.3 LTS atau lebih tinggi, fitur ini diaktifkan secara default.
Anda harus menginstal Databricks CLI, versi v0.218.0 atau lebih tinggi. Untuk menginstal atau memperbarui Databricks CLI, lihat Menginstal atau memperbarui Databricks CLI.
Databricks merekomendasikan agar Anda secara teratur memperbarui ke versi terbaru CLI untuk memanfaatkan fitur bundel baru. Untuk menemukan versi Databricks CLI yang diinstal, jalankan perintah berikut:
databricks --versionAnda telah mengonfigurasi Databricks CLI untuk mengakses ruang kerja Databricks Anda. Databricks merekomendasikan untuk mengonfigurasi akses menggunakan autentikasi pengguna-ke-mesin (U2M) OAuth, yang dijelaskan dalam Mengonfigurasi akses ke ruang kerja Anda. Metode autentikasi lainnya dijelaskan dalam Autentikasi untuk Bundel Otomatisasi Deklaratif.
Bagaimana cara memulai dengan paket?
Cara tercepat untuk memulai pengembangan bundel lokal adalah menggunakan templat proyek bundel. Buat proyek bundel pertama Anda menggunakan perintah init bundel Databricks CLI. Perintah ini menyajikan pilihan templat bundel default yang disediakan Databricks dan mengajukan serangkaian pertanyaan untuk menginisialisasi variabel proyek.
databricks bundle init
Membuat bundel Anda adalah langkah pertama dalam siklus hidup bundel. Selanjutnya, kembangkan bundel Anda dengan menetapkan pengaturan bundel dan sumber daya dalam databricks.yml dan file konfigurasi. Terakhir, validasi dan sebarkan bundel Anda, lalu jalankan alur kerja Anda.
Petunjuk
Contoh konfigurasi bundel dapat ditemukan dalam contoh konfigurasi Bundel dan repositori contoh Bundel di GitHub.
Langkah berikutnya
- Buat bundel yang menyebarkan buku catatan ke ruang kerja Azure Databricks lalu jalankan buku catatan yang disebarkan dalam pekerjaan atau alur Azure Databricks. Lihat Mengembangkan pekerjaan dengan Bundel Automasi Deklaratif dan Mengembangkan alur dengan Bundel Otomatisasi Deklaratif.
- Buat bundel yang menjalankan dan menyebarkan Stack MLOps. Lihat Bundel Otomatisasi Deklaratif untuk Arsitektur MLOps.
- Memulai penyebaran bundel sebagai bagian dari alur kerja CI/CD (integrasi berkelanjutan/penyebaran berkelanjutan) di GitHub. Lihat Menjalankan alur kerja CI/CD dengan bundel yang menjalankan pembaruan pipeline.
- Buat bundel yang membangun, menyebarkan, dan memanggil file roda Python. Lihat Membuat file roda Python menggunakan Bundel Otomatisasi Deklaratif.
- Buat konfigurasi dalam bundel Anda untuk pekerjaan atau sumber daya lain di ruang kerja Anda, lalu mengikatnya ke sumber daya di ruang kerja agar konfigurasi tetap sinkron. Lihat databricks bundle generate dan databricks bundle deployment bind.
- Membuat dan menyebarkan bundel di ruang kerja. Lihat Berkolaborasi pada bundel di ruang kerja.
- Buat templat kustom yang dapat Anda dan orang lain gunakan untuk membuat bundel. Templat kustom mungkin menyertakan izin default, perwakilan layanan, dan konfigurasi CI/CD kustom. Lihat Templat proyek Bundel Otomatisasi Deklaratif.
- Migrasi dari dbx ke Bundel Otomatisasi Deklaratif. Lihat Migrasi dari dbx ke bundel.
- Temukan fitur baru utama terbaru yang dirilis untuk Bundel Otomatisasi Deklaratif. Lihat Catatan rilis fitur Bundel Otomatisasi Deklaratif.