Bagikan melalui


Apa yang dimaksud dengan Bundel Aset Databricks?

Bundel Aset Databricks adalah alat untuk memfasilitasi adopsi praktik terbaik rekayasa perangkat lunak, termasuk kontrol sumber, tinjauan kode, pengujian, dan integrasi dan pengiriman berkelanjutan (CI/CD), untuk proyek data dan AI Anda. Bundel menyediakan cara untuk menyertakan metadata bersama file sumber proyek Anda dan memungkinkan untuk menggambarkan sumber daya Databricks seperti pekerjaan dan alur sebagai file sumber. Pada akhirnya bundel adalah definisi menyeluruh dari proyek, termasuk bagaimana proyek harus disusun, diuji, dan disebarkan. Ini membuatnya lebih mudah untuk berkolaborasi pada proyek selama pengembangan aktif.

Kumpulan file sumber dan metadata proyek bundel Anda disebarkan sebagai satu bundel ke lingkungan target Anda. Bundel mencakup bagian-bagian berikut:

  • Infrastruktur cloud dan konfigurasi ruang kerja yang diperlukan
  • File sumber, seperti buku catatan dan file Python, yang menyertakan logika bisnis
  • Definisi dan pengaturan untuk sumber daya Databricks, seperti Pekerjaan Lakeflow, Alur Deklaratif Lakeflow, titik akhir Penyajian Model, Eksperimen MLflow, dan model terdaftar MLflow
  • Pengujian unit dan pengujian integrasi

Diagram berikut menyediakan gambaran umum tingkat tinggi dari pengembangan perangkat lunak dan alur CI/CD dengan paket:

Ringkasan Bundel Aset Databricks

Kapan saya harus menggunakan Bundel Aset Databricks?

Bundel Aset Databricks adalah pendekatan infrastruktur sebagai kode (IaC) untuk mengelola proyek Databricks Anda. Gunakan saat Anda ingin mengelola proyek kompleks di mana beberapa kontributor dan otomatisasi sangat penting, dan integrasi dan penyebaran berkelanjutan (CI/CD) adalah persyaratan. Karena bundel didefinisikan dan dikelola melalui templat dan file YAML yang Anda buat dan pertahankan bersama kode sumber, bundel ini terpetakan dengan baik ke skenario di mana IaC merupakan pendekatan yang tepat.

Beberapa skenario ideal untuk paket meliputi:

  • Mengembangkan proyek data, analitik, dan ML di lingkungan berbasis tim. Bundel dapat membantu Anda mengatur dan mengelola berbagai file sumber secara efisien. Ini memastikan kolaborasi yang lancar dan proses yang disederhanakan.
  • Mempercepat iterasi pada masalah ML. Kelola sumber daya alur ML (seperti pelatihan dan pekerjaan inferensi batch) dengan menggunakan proyek ML yang mengikuti praktik terbaik produksi dari awal.
  • Atur standar organisasi untuk proyek baru dengan menulis templat bundel kustom yang mencakup izin default, perwakilan layanan, dan konfigurasi CI/CD.
  • Kepatuhan terhadap peraturan: Dalam industri di mana kepatuhan terhadap peraturan adalah perhatian utama, bundel dapat membantu mempertahankan riwayat versi dari pekerjaan kode dan infrastruktur. Ini membantu dalam tata kelola dan memastikan bahwa standar kepatuhan yang diperlukan terpenuhi.

Bagaimana cara kerja Bundel Aset Databricks?

Metadata bundel didefinisikan menggunakan file YAML yang menentukan artefak, sumber daya, dan konfigurasi proyek Databricks. Databricks CLI kemudian dapat digunakan untuk memvalidasi, menyebarkan, dan menjalankan bundel menggunakan file YAML bundel ini. Anda dapat menjalankan proyek bundel dari IDEs, terminal, atau dalam Databricks secara langsung.

Bundel dapat dibuat secara manual atau berdasarkan templat. Databricks CLI menyediakan templat default untuk kasus penggunaan sederhana, tetapi untuk pekerjaan yang lebih spesifik atau kompleks, Anda dapat membuat templat bundel kustom untuk mengimplementasikan praktik terbaik tim Anda dan menjaga konfigurasi umum tetap konsisten.

Untuk detail selengkapnya tentang KONFIGURASI YAML yang digunakan untuk mengekspresikan Bundel Aset Databricks, lihat Konfigurasi Bundel Aset Databricks.

Persyaratan

Bundel Aset Databricks adalah fitur CLI Databricks. Anda membuat bundel secara lokal, lalu menggunakan Databricks CLI untuk menyebarkan bundel Anda untuk menargetkan ruang kerja Databricks jarak jauh dan menjalankan alur kerja bundel di ruang kerja tersebut dari baris perintah.

Untuk membangun, menyebarkan, dan menjalankan bundel di ruang kerja Azure Databricks Anda:

  • Ruang kerja Databricks jarak jauh Anda harus memiliki file ruang kerja yang diaktifkan. Jika Anda menggunakan Databricks Runtime versi 11.3 LTS atau lebih tinggi, fitur ini diaktifkan secara default.

  • Anda harus menginstal Databricks CLI, versi v0.218.0 atau lebih tinggi. Untuk menginstal atau memperbarui Databricks CLI, lihat Menginstal atau memperbarui Databricks CLI.

    Databricks merekomendasikan agar Anda secara teratur memperbarui ke versi terbaru CLI untuk memanfaatkan fitur bundel baru. Untuk menemukan versi Databricks CLI yang diinstal, jalankan perintah berikut:

    databricks --version
    
  • Anda telah mengonfigurasi Databricks CLI untuk mengakses ruang kerja Databricks Anda. Databricks merekomendasikan untuk mengonfigurasi akses menggunakan autentikasi pengguna-ke-mesin (U2M) OAuth, yang dijelaskan dalam Mengonfigurasi akses ke ruang kerja Anda. Metode autentikasi lainnya dijelaskan dalam Autentikasi untuk Bundel Aset Databricks.

Bagaimana cara memulai dengan paket?

Cara tercepat untuk memulai pengembangan bundel adalah menggunakan templat proyek bundel. Buat proyek bundel pertama Anda menggunakan perintah init bundel Databricks CLI. Perintah ini menyajikan pilihan templat bundel default yang disediakan Databricks dan mengajukan serangkaian pertanyaan untuk menginisialisasi variabel proyek.

databricks bundle init

Membuat bundel Anda adalah langkah pertama dalam siklus hidup bundel. Selanjutnya, kembangkan bundel Anda dengan menetapkan pengaturan bundel dan sumber daya dalam databricks.yml dan file konfigurasi. Terakhir, validasi dan sebarkan bundel Anda, lalu jalankan alur kerja Anda.

Petunjuk

Contoh konfigurasi bundel dapat ditemukan dalam contoh konfigurasi Bundel dan repositori contoh Bundel di GitHub.

Langkah berikutnya