Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini menjelaskan konektor standar di Databricks Lakeflow Connect, yang menawarkan tingkat penyesuaian alur penyerapan yang lebih tinggi dibandingkan dengan konektor terkelola.
Lapisan tumpukan ETL
Beberapa konektor beroperasi pada satu tingkat tumpukan ETL. Misalnya, Databricks menawarkan konektor yang dikelola sepenuhnya untuk aplikasi perusahaan seperti Salesforce dan database seperti SQL Server. Konektor lain beroperasi pada beberapa lapisan tumpukan ETL. Misalnya, Anda dapat menggunakan konektor standar di Streaming Terstruktur untuk penyesuaian penuh atau Alur Deklaratif Lakeflow Spark untuk pengalaman yang lebih terkelola.
Databricks merekomendasikan dimulai dengan lapisan yang paling terkelola. Jika tidak memenuhi persyaratan Anda (misalnya, jika tidak mendukung sumber data Anda), turun ke lapisan berikutnya.
Tabel berikut menjelaskan tiga lapisan produk penyerapan, yang dipesan dari yang paling dapat disesuaikan dengan yang paling dikelola:
| Lapisan | Deskripsi |
|---|---|
| Streaming Terstruktur | Apache Spark Structured Streaming adalah mesin streaming yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan tepat sekali menggunakan API Spark. |
| Alur Deklaratif Lakeflow Spark | Alur Deklaratif Lakeflow Spark dibangun di Streaming Terstruktur, menawarkan kerangka kerja deklaratif untuk membuat alur data. Anda dapat menentukan transformasi yang akan dilakukan pada data Anda, dan Alur Deklaratif Lakeflow Spark mengelola orkestrasi, pemantauan, kualitas data, kesalahan, dan banyak lagi. Oleh karena itu, ia menawarkan lebih banyak otomatisasi dan lebih sedikit overhead daripada Streaming Terstruktur. |
| Konektor yang Dikelola | Konektor yang sepenuhnya terkelola dikembangkan dengan Lakeflow Spark Declarative Pipelines, menawarkan lebih banyak otomatisasi untuk sumber data terpopuler. Mereka memperluas fungsionalitas Lakeflow Spark Declarative Pipelines untuk juga mencakup autentikasi khusus sumber, CDC, penanganan kasus tepi, pemeliharaan API jangka panjang, percobaan ulang otomatis, evolusi skema otomatis, dan sebagainya. Oleh karena itu, mereka menawarkan lebih banyak otomatisasi untuk sumber data yang didukung. |
Pilih konektor
Tabel berikut mencantumkan konektor penyerapan standar menurut sumber data dan tingkat kustomisasi alur. Untuk pengalaman penyerapan yang sepenuhnya otomatis, gunakan konektor terkelola sebagai gantinya.
Contoh SQL untuk penyerapan inkremental dari penyimpanan objek cloud menggunakan sintaks CREATE STREAMING TABLE. Ini menawarkan pengguna SQL pengalaman penyerapan yang dapat diskalakan dan kuat, oleh karena itu ini adalah alternatif yang direkomendasikan untuk COPY INTO.
| Sumber | Kustomisasi lainnya | Beberapa kustomisasi | Otomatisasi lainnya |
|---|---|---|---|
| Penyimpanan objek di cloud |
Auto Loader dengan Streaming Berstruktur (Python, Scala) |
Auto Loader dengan Alur Deklaratif Lakeflow Spark (Python, SQL) |
Auto Loader dengan Databricks SQL (SQL) |
| Server SFTP |
Menyerap file dari server SFTP (Python, SQL) |
N/A | N/A |
| Apache Kafka |
Streaming Terstruktur dengan sumber Kafka (Python, Scala) |
Alur Deklaratif Lakeflow Spark dengan sumber Kafka (Python, SQL) |
Databricks SQL dengan sumber Kafka (SQL) |
| Google Pub/Sub |
Streaming Terstruktur dengan sumber Pub/Sub (Python, Scala) |
Alur Deklaratif Lakeflow Spark dengan sumber Pub/Sub (Python, SQL) |
Databricks SQL dengan sumber Pub/Sub (SQL) |
| Apache Pulsar |
Streaming Terstruktur dengan sumber Pulsar (Python, Scala) |
Alur Deklaratif Lakeflow Spark dengan sumber Pulsar (Python, SQL) |
Databricks SQL dengan sumber Pulsar (SQL) |
Jadwal konsumsi
Anda dapat mengonfigurasi alur penyerapan untuk berjalan pada jadwal berulang atau terus menerus.
| Skenario penggunaan | Mode alur |
|---|---|
| Pemrosesan batch | Dipicu: Memproses data baru sesuai jadwal atau saat dipicu secara manual. |
| Pengumpulan data secara streaming | Berkelanjutan: Memproses data baru saat tiba di sumber. |