Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Lakeflow Connect menawarkan konektor sederhana dan efisien untuk menyerap data dari file lokal, aplikasi perusahaan populer, database, penyimpanan cloud, bus pesan, dan banyak lagi. Halaman ini menguraikan beberapa cara agar Lakeflow Connect dapat meningkatkan performa ETL. Ini juga mencakup kasus penggunaan umum dan rentang alat penyerapan yang didukung, dari konektor yang dikelola sepenuhnya hingga kerangka kerja yang sepenuhnya dapat disesuaikan.
Model layanan fleksibel
Lakeflow Connect menawarkan berbagai konektor untuk aplikasi perusahaan, penyimpanan cloud, database, bus pesan, dan banyak lagi. Ini juga memberi Anda fleksibilitas untuk memilih antara yang berikut:
| Opsi | Deskripsi |
|---|---|
| Layanan yang dikelola sepenuhnya | Konektor siap pakai yang mendemokratisasi akses data dengan UI sederhana dan API yang kuat. Ini memungkinkan Anda untuk dengan cepat membuat alur penyerapan yang kuat sambil meminimalkan biaya pemeliharaan jangka panjang. |
| Rangkaian proses kustom | Jika Anda memerlukan lebih banyak penyesuaian, Anda dapat menggunakan Alur Deklaratif Lakeflow Spark atau Streaming Terstruktur. Pada akhirnya, fleksibilitas ini memungkinkan Lakeflow Connect untuk memenuhi kebutuhan spesifik organisasi Anda. |
Penyatuan dengan perangkat inti Databricks
Lakeflow Connect menggunakan fitur Databricks inti untuk menyediakan manajemen data yang komprehensif. Misalnya, ia menawarkan tata kelola menggunakan Unity Catalog, orkestrasi menggunakan Lakeflow Jobs, dan pemantauan holistik di seluruh pipeline Anda. Ini membantu organisasi Anda mengelola keamanan, kualitas, dan biaya data sambil menyatukan proses penyerapan Anda dengan alat rekayasa data Anda yang lain. Lakeflow Connect dibangun di atas Platform Kecerdasan Data terbuka, dengan fleksibilitas penuh untuk menggabungkan alat pihak ketiga pilihan Anda. Ini memastikan solusi yang disesuaikan yang selaras dengan infrastruktur dan strategi data Anda yang ada di masa mendatang.
Penyerapan yang cepat dan dapat diskalakan
Lakeflow Connect menggunakan bacaan dan tulis bertahap untuk memungkinkan penyerapan yang efisien. Ketika dikombinasikan dengan transformasi inkremental di hilir, ini dapat secara signifikan meningkatkan performa ETL.
Kasus penggunaan umum
Pelanggan menyerap data untuk menyelesaikan masalah organisasi mereka yang paling menantang. Contoh kasus penggunaan meliputi yang berikut ini:
| Skenario penggunaan | Deskripsi |
|---|---|
| Pelanggan 360 | Mengukur performa kampanye dan penilaian prospek pelanggan |
| Manajemen portofolio | Memaksimalkan ROI dengan model historis dan prakiraan |
| Analitik konsumen | Mempersonalisasi pengalaman pembelian pelanggan Anda |
| Sumber daya manusia terpusat | Mendukung tenaga kerja organisasi Anda |
| Kembar digital | Meningkatkan efisiensi manufaktur |
| RAG chatbots | Membangun chatbot untuk membantu pengguna memahami kebijakan, produk, dan banyak lagi |
Lapisan tumpukan ETL
Beberapa konektor beroperasi pada satu tingkat tumpukan ETL. Misalnya, Databricks menawarkan konektor yang dikelola sepenuhnya untuk aplikasi perusahaan seperti Salesforce dan database seperti SQL Server. Konektor lain beroperasi pada lapisan tumpukan ETL yang berbeda. Misalnya, Anda dapat menggunakan konektor standar di Lakeflow Spark Declarative Pipelines untuk opsi penyesuaian lainnya. Demikian pula, Anda dapat memilih tingkat kustomisasi untuk data streaming dari Apache Kafka, Amazon Kinesis, Google Pub/Sub, dan Apache Pulsar.
Databricks merekomendasikan dimulai dengan lapisan yang paling terkelola. Jika tidak memenuhi persyaratan Anda (misalnya, jika tidak mendukung sumber data Anda), turun ke lapisan berikutnya.
Tabel berikut menjelaskan lapisan produk penyerapan:
| Lapisan | Deskripsi |
|---|---|
| Alur Deklaratif Lakeflow Spark | Lakeflow Spark Declarative Pipelines menawarkan kerangka kerja deklaratif untuk membuat alur data. Tentukan transformasi Anda, dan Alur Deklaratif Lakeflow Spark mengelola orkestrasi, pemantauan, kualitas data, kesalahan, dan banyak lagi. Ini dibangun di atas Streaming Terstruktur untuk pemrosesan data aliran dan mendukung sebagian besar fitur Streaming Terstruktur. Untuk fitur Streaming Terstruktur apa pun yang belum tersedia di Alur Deklaratif Lakeflow Spark, Anda dapat menggunakan API Streaming Terstruktur secara langsung. |
| Konektor yang dikelola sepenuhnya | Konektor yang sepenuhnya terkelola dikembangkan dengan Lakeflow Spark Declarative Pipelines, menawarkan lebih banyak otomatisasi untuk sumber data terpopuler. Mereka memperluas fungsionalitas Lakeflow Spark Declarative Pipelines untuk juga mencakup autentikasi khusus sumber, CDC, penanganan kasus tepi, pemeliharaan API jangka panjang, percobaan ulang otomatis, evolusi skema otomatis, dan sebagainya. Oleh karena itu, mereka menawarkan lebih banyak otomatisasi untuk sumber data yang didukung. |
Konektor dikelola
Anda dapat menggunakan konektor yang dikelola sepenuhnya untuk menyerap dari aplikasi dan database perusahaan. Lihat Konektor terkelola di Lakeflow Connect untuk daftar lengkap konektor yang didukung.
Antarmuka yang didukung meliputi:
- Databricks Antarmuka Pengguna
- Paket Otomatisasi Deklaratif
- API dari Databricks
- SDK Databricks
- Databricks CLI (antarmuka baris perintah)
Penghubung Komunitas
Konektor komunitas memperluas Lakeflow Connect ke sumber tanpa dukungan konektor terkelola. Mereka dibangun dan dikelola oleh komunitas dan tidak didukung oleh SLA Databricks. Anda dapat menggunakan konektor yang sudah ada atau membuat konektor Anda sendiri. Lihat Konektor komunitas di Lakeflow Connect.
Konektor standar
Selain konektor terkelola, Databricks menawarkan konektor yang dapat disesuaikan untuk penyimpanan objek cloud dan bus pesan. Lihat Konektor standar di Lakeflow Connect.
Membuat atau mengubah tabel dari unggahan file (Menambahkan UI data)
Anda dapat menyerap file yang berada di jaringan lokal Anda, file yang diunggah ke volume, atau file yang diunduh dari lokasi internet. Lihat Buat atau ubah tabel menggunakan unggahan file.
mitra pengumpulan data
Banyak alat pihak ketiga mendukung pengambilan batch atau streaming ke Databricks. Databricks memvalidasi berbagai integrasi pihak ketiga, meskipun langkah-langkah untuk mengonfigurasi akses ke sistem sumber dan menyerap data bervariasi menurut alat. Lihat mitra pengambilan data untuk daftar alat yang divalidasi. Beberapa mitra teknologi juga ditampilkan dalam Databricks Partner Connect, yang memiliki UI yang menyederhanakan menghubungkan alat pihak ketiga ke data Lakehouse.
penyerapan buat sendiri
Databricks menyediakan platform komputasi umum. Akibatnya, Anda dapat membuat konektor penyerapan Anda sendiri menggunakan bahasa pemrograman apa pun yang didukung oleh Databricks, seperti Python atau Java. Anda juga dapat mengimpor dan menggunakan pustaka konektor sumber terbuka populer seperti alat pemuatan data, Airbyte, dan Debezium.
alternatif penyerapan
Databricks merekomendasikan pengambilan data untuk sebagian besar kasus penggunaan karena dapat menangani volume data yang tinggi, kueri dengan latensi rendah, dan batas API dari pihak ketiga. Pemasukan mentransfer data dari sistem sumber Anda ke Azure Databricks, yang dapat menghasilkan data duplikat dan mungkin menjadi usang seiring waktu. Jika Anda tidak ingin menyalin data, Anda bisa menggunakan alat berikut:
| Alat | Deskripsi |
|---|---|
| Federasi Lakehouse | Memungkinkan Anda mengkueri sumber data eksternal tanpa memindahkan data Anda. |
| Berbagi Delta | Memungkinkan Anda berbagi data dengan aman di seluruh platform, cloud, dan wilayah. |