Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini memperkenalkan dlt-meta, proyek Databricks Labs yang menyediakan alat untuk menghasilkan alur dari metadata yang Anda pertahankan.
Nota
Proyek dlt-meta sumber terbuka, seperti semua proyek di akun GitHub databrickslabs, hanya ada untuk tujuan eksplorasi. Azure Databricks tidak mendukungnya atau menyediakan perjanjian tingkat layanan (SLA) untuknya. Jangan mengirimkan tiket dukungan Azure Databricks untuk masalah yang terkait dengan proyek ini. Sebagai gantinya, ajukan masalah GitHub, yang akan ditinjau sebagai izin waktu.
Apa itu dlt-meta?
Lakeflow Spark Declarative Pipelines memungkinkan Anda menentukan tabel secara deklaratif, dan menghasilkan alur dalam pipeline yang membuat tabel dan memperbaruinya secara berkala saat data sumber berubah. Namun, jika organisasi Anda memiliki ratusan tabel, menghasilkan dan mengelola alur ini memakan waktu, dan dapat menyebabkan praktik yang tidak konsisten.
Proyek dlt-meta adalah kerangka kerja metaprogram berbasis metadata yang dirancang untuk bekerja dengan Lakeflow Spark Declarative Pipelines. Kerangka kerja ini memungkinkan otomatisasi alur data perunggu dan perak dengan memanfaatkan metadata yang dicatat dalam satu set file JSON dan YAML. Mesin dlt-meta menggunakan kode Python untuk menghasilkan kode alur secara dinamis untuk alur yang dijelaskan dalam metadata Anda. Anda menghasilkan metadata tentang alur Anda, dan dlt-meta menghasilkan alur Anda.
Dengan logika Anda terpusat di satu tempat (metadata), sistem Anda lebih cepat, dapat digunakan kembali, dan lebih mudah dipertahankan.
Nota
Proyek dlt-meta dinamai untuk fitur Delta Live Tables yang lebih lama di Azure Databricks. Tabel Langsung Delta telah digantikan oleh Alur Deklaratif Lakeflow Spark, dan dlt-meta berfungsi dengan Alur Deklaratif Lakeflow Spark.
Manfaat dlt-meta
Ada dua kasus penggunaan utama untuk dlt-meta:
- Serap dan bersihkan sejumlah besar tabel secara sederhana.
- Menerapkan standar rekayasa data di beberapa alur dan pengguna.
Manfaat menggunakan pendekatan berbasis metadata meliputi:
- Mempertahankan metadata dapat dilakukan tanpa sepengetahuan kode Python atau SQL.
- Mempertahankan metadata, daripada kode, membutuhkan lebih sedikit overhead, dan mengurangi kesalahan.
- Kode dihasilkan oleh dlt-meta, sehingga tetap konsisten dan memiliki lebih sedikit kode kustom di seluruh alur dan tabel yang diterbitkan.
- Anda dapat dengan mudah mengelompokkan tabel ke dalam alur dalam metadata, menghasilkan jumlah alur yang diperlukan untuk memperbarui data Anda secara paling efisien.
Bagaimana cara kerjanya?
Gambar berikut menunjukkan gambaran umum sistem dlt-meta:
- Anda membuat file metadata sebagai input ke dlt-meta, untuk menentukan file dan output sumber Anda, aturan kualitas, dan pemrosesan yang diperlukan.
- Mesin dlt-meta mengkompilasi file onboarding ke dalam spesifikasi aliran data, yang disebut DataflowSpec dan menyimpannya untuk digunakan nanti.
- Mesin dlt-meta menggunakan DataflowSpec untuk membuat alur yang menghasilkan tabel perunggu Anda. Ini menggunakan file metadata Anda untuk membaca data sumber dan menerapkan ekspektasi data yang benar agar sesuai dengan aturan kualitas Anda.
- Mesin dlt-meta selanjutnya menggunakan DataflowSpec untuk membuat alur tambahan yang menghasilkan tabel perak Anda. Ini menggunakan file metadata Anda untuk menerapkan transformasi yang sesuai dan pemrosesan lainnya untuk sistem Anda.
Anda menjalankan alur yang dihasilkan oleh dlt-meta untuk menjaga output tetap terkini saat data sumber Anda diperbarui.
Bagaimana saya memulai?
Untuk menggunakan dlt-meta, Anda harus:
- Menyebarkan dan mengonfigurasi solusi dlt-meta.
- Siapkan metadata untuk tabel lapisan perunggu dan perak Anda.
- Buat pekerjaan untuk onboard metadata.
- Gunakan metadata untuk membuat alur untuk tabel Anda.
Dokumentasi dlt-meta di GitHub memiliki tutorial untuk membantu Anda memulai proses ini. Untuk informasi selengkapnya, lihat mulai menggunakan dlt-meta di GitHub.