Konektor standar di Lakeflow Connect

Halaman ini menjelaskan konektor standar di Databricks Lakeflow Connect, yang menawarkan tingkat penyesuaian alur penyerapan yang lebih tinggi dibandingkan dengan konektor terkelola.

Lapisan tumpukan ETL

Beberapa konektor beroperasi pada satu tingkat tumpukan ETL. Misalnya, Databricks menawarkan konektor yang dikelola sepenuhnya untuk aplikasi perusahaan seperti Salesforce dan database seperti SQL Server. Konektor lain beroperasi pada beberapa lapisan tumpukan ETL. Misalnya, Anda dapat menggunakan konektor standar di Streaming Terstruktur untuk penyesuaian penuh atau Alur Deklaratif Lakeflow Spark untuk pengalaman yang lebih terkelola.

Diagram tumpukan ETL

Databricks merekomendasikan dimulai dengan lapisan yang paling terkelola. Jika tidak memenuhi persyaratan Anda (misalnya, jika tidak mendukung sumber data Anda), turun ke lapisan berikutnya.

Tabel berikut menjelaskan tiga lapisan produk penyerapan, yang dipesan dari yang paling dapat disesuaikan dengan yang paling dikelola:

Lapisan	Deskripsi
Streaming Terstruktur	Apache Spark Structured Streaming adalah mesin streaming yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan tepat sekali menggunakan API Spark.
Alur Deklaratif Lakeflow Spark	Alur Deklaratif Lakeflow Spark dibangun di Streaming Terstruktur, menawarkan kerangka kerja deklaratif untuk membuat alur data. Anda dapat menentukan transformasi yang akan dilakukan pada data Anda, dan Alur Deklaratif Lakeflow Spark mengelola orkestrasi, pemantauan, kualitas data, kesalahan, dan banyak lagi. Oleh karena itu, ia menawarkan lebih banyak otomatisasi dan lebih sedikit overhead daripada Streaming Terstruktur.
Konektor yang Dikelola	Konektor yang sepenuhnya terkelola dikembangkan dengan Lakeflow Spark Declarative Pipelines, menawarkan lebih banyak otomatisasi untuk sumber data terpopuler. Mereka memperluas fungsionalitas Lakeflow Spark Declarative Pipelines untuk juga mencakup autentikasi khusus sumber, CDC, penanganan kasus tepi, pemeliharaan API jangka panjang, percobaan ulang otomatis, evolusi skema otomatis, dan sebagainya. Oleh karena itu, mereka menawarkan lebih banyak otomatisasi untuk sumber data yang didukung.

Pilih konektor

Tabel berikut mencantumkan konektor penyerapan standar menurut sumber data dan tingkat kustomisasi alur. Untuk pengalaman penyerapan yang sepenuhnya otomatis, gunakan konektor terkelola sebagai gantinya.

Contoh SQL untuk penyerapan inkremental dari penyimpanan objek cloud menggunakan sintaks CREATE STREAMING TABLE. Ini menawarkan pengguna SQL pengalaman penyerapan yang dapat diskalakan dan kuat, oleh karena itu ini adalah alternatif yang direkomendasikan untuk COPY INTO.

Sumber	Kustomisasi lainnya	Beberapa kustomisasi	Otomatisasi lainnya
Penyimpanan objek di cloud	Auto Loader dengan Streaming Berstruktur (Python, Scala)	Auto Loader dengan Alur Deklaratif Lakeflow Spark (Python, SQL)	Auto Loader dengan Databricks SQL (SQL)
Server SFTP	Menyerap file dari server SFTP (Python, SQL)	N/A	N/A
Apache Kafka	Streaming Terstruktur dengan sumber Kafka (Python, Scala)	Alur Deklaratif Lakeflow Spark dengan sumber Kafka (Python, SQL)	Databricks SQL dengan sumber Kafka (SQL)
Google Pub/Sub	Streaming Terstruktur dengan sumber Pub/Sub (Python, Scala)	Alur Deklaratif Lakeflow Spark dengan sumber Pub/Sub (Python, SQL)	Databricks SQL dengan sumber Pub/Sub (SQL)
Apache Pulsar	Streaming Terstruktur dengan sumber Pulsar (Python, Scala)	Alur Deklaratif Lakeflow Spark dengan sumber Pulsar (Python, SQL)	Databricks SQL dengan sumber Pulsar (SQL)

Jadwal konsumsi

Anda dapat mengonfigurasi alur penyerapan untuk berjalan pada jadwal berulang atau terus menerus.

Skenario penggunaan	Mode alur
Pemrosesan batch	Dipicu: Memproses data baru sesuai jadwal atau saat dipicu secara manual.
Pengumpulan data secara streaming	Berkelanjutan: Memproses data baru saat tiba di sumber.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-03-11