Apa itu Lakeflow Connect?

Lakeflow Connect menawarkan konektor sederhana dan efisien untuk menyerap data dari file lokal, aplikasi perusahaan populer, database, penyimpanan cloud, bus pesan, dan banyak lagi. Halaman ini menguraikan beberapa cara agar Lakeflow Connect dapat meningkatkan performa ETL. Ini juga mencakup kasus penggunaan umum dan rentang alat penyerapan yang didukung, dari konektor yang dikelola sepenuhnya hingga kerangka kerja yang sepenuhnya dapat disesuaikan.

Model layanan fleksibel

Lakeflow Connect menawarkan berbagai konektor untuk aplikasi perusahaan, penyimpanan cloud, database, bus pesan, dan banyak lagi. Ini juga memberi Anda fleksibilitas untuk memilih antara yang berikut:

Opsi Deskripsi
Layanan yang dikelola sepenuhnya Konektor siap pakai yang mendemokratisasi akses data dengan UI sederhana dan API yang kuat. Ini memungkinkan Anda untuk dengan cepat membuat alur penyerapan yang kuat sambil meminimalkan biaya pemeliharaan jangka panjang.
Rangkaian proses kustom Jika Anda memerlukan lebih banyak penyesuaian, Anda dapat menggunakan Alur Deklaratif Lakeflow Spark atau Streaming Terstruktur. Pada akhirnya, fleksibilitas ini memungkinkan Lakeflow Connect untuk memenuhi kebutuhan spesifik organisasi Anda.

Penyatuan dengan perangkat inti Databricks

Lakeflow Connect menggunakan fitur Databricks inti untuk menyediakan manajemen data yang komprehensif. Misalnya, ia menawarkan tata kelola menggunakan Unity Catalog, orkestrasi menggunakan Lakeflow Jobs, dan pemantauan holistik di seluruh pipeline Anda. Ini membantu organisasi Anda mengelola keamanan, kualitas, dan biaya data sambil menyatukan proses penyerapan Anda dengan alat rekayasa data Anda yang lain. Lakeflow Connect dibangun di atas Platform Kecerdasan Data terbuka, dengan fleksibilitas penuh untuk menggabungkan alat pihak ketiga pilihan Anda. Ini memastikan solusi yang disesuaikan yang selaras dengan infrastruktur dan strategi data Anda yang ada di masa mendatang.

Penyerapan yang cepat dan dapat diskalakan

Lakeflow Connect menggunakan bacaan dan tulis bertahap untuk memungkinkan penyerapan yang efisien. Ketika dikombinasikan dengan transformasi inkremental di hilir, ini dapat secara signifikan meningkatkan performa ETL.

Kasus penggunaan umum

Pelanggan menyerap data untuk menyelesaikan masalah organisasi mereka yang paling menantang. Contoh kasus penggunaan meliputi yang berikut ini:

Skenario penggunaan Deskripsi
Pelanggan 360 Mengukur performa kampanye dan penilaian prospek pelanggan
Manajemen portofolio Memaksimalkan ROI dengan model historis dan prakiraan
Analitik konsumen Mempersonalisasi pengalaman pembelian pelanggan Anda
Sumber daya manusia terpusat Mendukung tenaga kerja organisasi Anda
Kembar digital Meningkatkan efisiensi manufaktur
RAG chatbots Membangun chatbot untuk membantu pengguna memahami kebijakan, produk, dan banyak lagi

Lapisan tumpukan ETL

Beberapa konektor beroperasi pada satu tingkat tumpukan ETL. Misalnya, Databricks menawarkan konektor yang dikelola sepenuhnya untuk aplikasi perusahaan seperti Salesforce dan database seperti SQL Server. Konektor lain beroperasi pada lapisan tumpukan ETL yang berbeda. Misalnya, Anda dapat menggunakan konektor standar di Lakeflow Spark Declarative Pipelines untuk opsi penyesuaian lainnya. Demikian pula, Anda dapat memilih tingkat kustomisasi untuk data streaming dari Apache Kafka, Amazon Kinesis, Google Pub/Sub, dan Apache Pulsar.

Databricks merekomendasikan dimulai dengan lapisan yang paling terkelola. Jika tidak memenuhi persyaratan Anda (misalnya, jika tidak mendukung sumber data Anda), turun ke lapisan berikutnya.

Tabel berikut menjelaskan lapisan produk penyerapan:

Lapisan Deskripsi
Alur Deklaratif Lakeflow Spark Lakeflow Spark Declarative Pipelines menawarkan kerangka kerja deklaratif untuk membuat alur data. Tentukan transformasi Anda, dan Alur Deklaratif Lakeflow Spark mengelola orkestrasi, pemantauan, kualitas data, kesalahan, dan banyak lagi. Ini dibangun di atas Streaming Terstruktur untuk pemrosesan data aliran dan mendukung sebagian besar fitur Streaming Terstruktur. Untuk fitur Streaming Terstruktur apa pun yang belum tersedia di Alur Deklaratif Lakeflow Spark, Anda dapat menggunakan API Streaming Terstruktur secara langsung.
Konektor yang dikelola sepenuhnya Konektor yang sepenuhnya terkelola dikembangkan dengan Lakeflow Spark Declarative Pipelines, menawarkan lebih banyak otomatisasi untuk sumber data terpopuler. Mereka memperluas fungsionalitas Lakeflow Spark Declarative Pipelines untuk juga mencakup autentikasi khusus sumber, CDC, penanganan kasus tepi, pemeliharaan API jangka panjang, percobaan ulang otomatis, evolusi skema otomatis, dan sebagainya. Oleh karena itu, mereka menawarkan lebih banyak otomatisasi untuk sumber data yang didukung.

Konektor dikelola

Anda dapat menggunakan konektor yang dikelola sepenuhnya untuk menyerap dari aplikasi dan database perusahaan. Lihat Konektor terkelola di Lakeflow Connect untuk daftar lengkap konektor yang didukung.

Antarmuka yang didukung meliputi:

  • Databricks Antarmuka Pengguna
  • Paket Otomatisasi Deklaratif
  • API dari Databricks
  • SDK Databricks
  • Databricks CLI (antarmuka baris perintah)

Penghubung Komunitas

Konektor komunitas memperluas Lakeflow Connect ke sumber tanpa dukungan konektor terkelola. Mereka dibangun dan dikelola oleh komunitas dan tidak didukung oleh SLA Databricks. Anda dapat menggunakan konektor yang sudah ada atau membuat konektor Anda sendiri. Lihat Konektor komunitas di Lakeflow Connect.

Konektor standar

Selain konektor terkelola, Databricks menawarkan konektor yang dapat disesuaikan untuk penyimpanan objek cloud dan bus pesan. Lihat Konektor standar di Lakeflow Connect.

Membuat atau mengubah tabel dari unggahan file (Menambahkan UI data)

Anda dapat menyerap file yang berada di jaringan lokal Anda, file yang diunggah ke volume, atau file yang diunduh dari lokasi internet. Lihat Buat atau ubah tabel menggunakan unggahan file.

mitra pengumpulan data

Banyak alat pihak ketiga mendukung pengambilan batch atau streaming ke Databricks. Databricks memvalidasi berbagai integrasi pihak ketiga, meskipun langkah-langkah untuk mengonfigurasi akses ke sistem sumber dan menyerap data bervariasi menurut alat. Lihat mitra pengambilan data untuk daftar alat yang divalidasi. Beberapa mitra teknologi juga ditampilkan dalam Databricks Partner Connect, yang memiliki UI yang menyederhanakan menghubungkan alat pihak ketiga ke data Lakehouse.

penyerapan buat sendiri

Databricks menyediakan platform komputasi umum. Akibatnya, Anda dapat membuat konektor penyerapan Anda sendiri menggunakan bahasa pemrograman apa pun yang didukung oleh Databricks, seperti Python atau Java. Anda juga dapat mengimpor dan menggunakan pustaka konektor sumber terbuka populer seperti alat pemuatan data, Airbyte, dan Debezium.

alternatif penyerapan

Databricks merekomendasikan pengambilan data untuk sebagian besar kasus penggunaan karena dapat menangani volume data yang tinggi, kueri dengan latensi rendah, dan batas API dari pihak ketiga. Pemasukan mentransfer data dari sistem sumber Anda ke Azure Databricks, yang dapat menghasilkan data duplikat dan mungkin menjadi usang seiring waktu. Jika Anda tidak ingin menyalin data, Anda bisa menggunakan alat berikut:

Alat Deskripsi
Federasi Lakehouse Memungkinkan Anda mengkueri sumber data eksternal tanpa memindahkan data Anda.
Berbagi Delta Memungkinkan Anda berbagi data dengan aman di seluruh platform, cloud, dan wilayah.