Konsep Deklaratif Pipeline Lakeflow Spark

Pelajari apa itu Lakeflow Spark Declarative Pipelines (SDP), konsep inti (seperti alur, tabel streaming, dan tampilan materialisasi) yang menentukannya, hubungan antara konsep tersebut, dan manfaat menggunakannya dalam alur kerja pemrosesan data Anda.

Nota

Alur Deklaratif Lakeflow Spark memerlukan paket Premium. Hubungi tim akun Databricks Anda untuk informasi selengkapnya.

Apa itu SDP?

Lakeflow Spark Declarative Pipelines adalah kerangka kerja deklaratif untuk mengembangkan dan menjalankan alur data batch dan streaming di SQL dan Python. Lakeflow SDP memperluas jangkauan dan berinteroperasi dengan Aliran Deklaratif Apache Spark, saat berjalan pada Databricks Runtime yang dioptimalkan untuk kinerja, dan Lakeflow Spark Declarative Pipelines flows API memanfaatkan API DataFrame yang sama seperti Apache Spark dan Streaming Terstruktur. Kasus penggunaan umum untuk SDP mencakup penyerapan data bertahap dari sumber seperti penyimpanan cloud (termasuk Amazon S3, Azure ADLS Gen2, dan Google Cloud Storage) dan bus pesan (seperti Apache Kafka, Amazon Kinesis, Google Pub/Sub, Azure EventHub, dan Apache Pulsar), transformasi batch dan streaming bertahap dengan operator stateless dan stateful, dan pemrosesan aliran real time antara penyimpanan transaksional seperti bus pesan dan database.

Untuk detail selengkapnya tentang pemrosesan data deklaratif, lihat Pemrosesan data prosedural vs. deklaratif di Databricks.

Apa manfaat SDP?

Sifat deklaratif dari SDP memberikan manfaat berikut dibandingkan dengan mengembangkan proses data dengan API Apache Spark dan Spark Structured Streaming serta menjalankannya menggunakan Databricks Runtime dengan orkestrasi manual melalui Lakeflow Jobs.

Orkestrasi otomatis: SDP mengatur langkah-langkah pemrosesan (disebut "alur") secara otomatis untuk memastikan urutan eksekusi yang benar dan tingkat paralelisme maksimum untuk performa optimal. Selain itu, alur secara otomatis dan efisien mencoba kembali kegagalan sementara. Proses coba lagi dimulai dengan unit yang paling terperinci dan hemat biaya: tugas Spark. Jika upaya ulang tingkat tugas gagal, SDP melanjutkan untuk mengulang proses, dan kemudian seluruh pipeline jika perlu.
Pemrosesan deklaratif: SDP menyediakan fungsi deklaratif yang dapat mengurangi ratusan atau bahkan ribuan baris kode Spark manual dan Streaming Terstruktur menjadi hanya beberapa baris. SDP AUTO CDC API menyederhanakan pemrosesan peristiwa Change Data Capture (CDC) dengan dukungan untuk SCD Tipe 1 dan SCD Tipe 2. Ini menghilangkan kebutuhan kode manual untuk menangani peristiwa yang tidak berurutan, dan tidak memerlukan pemahaman tentang semantik pemrosesan streaming atau konsep seperti penanda waktu.
Pemrosesan bertahap: SDP menyediakan mesin pemrosesan bertahap untuk tampilan materialisasi. Untuk menggunakannya, Anda menulis logika transformasi Anda dengan semantik batch, dan mesin hanya akan memproses data baru dan perubahan dalam sumber data jika memungkinkan. Pemrosesan bertahap mengurangi pemrosesan ulang yang tidak efisien ketika data baru atau perubahan terjadi di sumber dan menghilangkan kebutuhan kode manual untuk menangani pemrosesan bertahap.

Konsep Utama

Diagram di bawah ini menggambarkan konsep paling penting dari Alur Deklaratif Lakeflow Spark.

Diagram yang menunjukkan bagaimana konsep inti SDP berhubungan satu sama lain pada tingkat yang sangat tinggi

Flows

Alur adalah konsep pemrosesan data dasar dalam SDP yang mendukung semantik streaming dan batch. Alur membaca data dari sumber, menerapkan logika pemrosesan yang ditentukan pengguna, dan menulis hasilnya ke dalam target. SDP berbagi jenis alur streaming yang sama (Tambahkan, Perbarui, Selesai) sebagai Streaming Terstruktur Spark. (Saat ini, hanya alur Tambahkan yang terekspos.) Untuk detail selengkapnya, lihat mode output di Streaming Terstruktur.

Alur Deklaratif Lakeflow Spark juga menyediakan jenis alur tambahan:

AUTO CDC adalah aliran streaming unik di Lakeflow SDP yang menangani peristiwa CDC yang tidak berurutan dan mendukung SCD Tipe 1 dan SCD Tipe 2. CDC Otomatis tidak tersedia di Alur Deklaratif Apache Spark.
Materialized view adalah alur batch di SDP yang hanya memproses data baru dan perubahan dalam tabel sumber sejauh mungkin.