Praktik terbaik untuk interoperabilitas dan kegunaan

2025-06-09

Artikel ini membahas praktik terbaik untuk interoperabilitas dan kegunaan, yang diatur oleh prinsip arsitektur yang tercantum di bagian berikut.

1. Tentukan standar untuk integrasi

Menggunakan pola integrasi standar dan dapat digunakan kembali untuk integrasi eksternal

Standar integrasi penting karena memberikan panduan tentang bagaimana data harus diwakili, ditukar, dan diproses di berbagai sistem dan aplikasi. Standar ini membantu memastikan bahwa data kompatibel, berkualitas tinggi, dan dapat dioperasikan di berbagai sumber dan tujuan.

Databricks Lakehouse dilengkapi dengan REST API komprehensif yang memungkinkan Anda mengelola hampir semua aspek platform secara terprogram. Server REST API berjalan di sarana kontrol dan menyediakan titik akhir terpadu untuk mengelola platform Azure Databricks.

REST API menyediakan tingkat integrasi terendah yang selalu dapat digunakan. Namun, cara yang disukai untuk berintegrasi dengan Azure Databricks adalah dengan menggunakan abstraksi tingkat yang lebih tinggi seperti SDK Databricks atau alat CLI. Alat CLI berbasis shell dan memungkinkan integrasi platform Databricks yang mudah ke dalam alur kerja CI/CD dan MLOps.

Gunakan konektor yang dioptimalkan untuk memasukkan sumber data ke dalam lakehouse.

Azure Databricks menawarkan berbagai cara untuk membantu Anda menelan data ke Delta Lake.

Databricks menyediakan konektor yang dioptimalkan untuk layanan pesan streaming seperti Apache Kafka untuk penyerapan data yang hampir waktu nyata.
Databricks menyediakan integrasi bawaan ke banyak sistem data cloud-native dan dukungan JDBC yang dapat diperluas untuk terhubung ke sistem data lain.
Salah satu opsi untuk mengintegrasikan sumber data tanpa ETL adalah Federasi Lakehouse. Lakehouse Federation merupakan platform federasi kueri yang ditujukan untuk Databricks. Istilah federasi kueri menjelaskan kumpulan fitur yang memungkinkan pengguna dan sistem menjalankan kueri terhadap beberapa sumber data tanpa harus memigrasikan semua data ke dalam sistem terpadu. Databricks menggunakan Unity Catalog untuk mengelola federasi kueri. Tata kelola data dan alat silsilah data Unity Catalog memastikan bahwa akses data dikelola dan diaudit untuk semua kueri federasi yang dijalankan oleh pengguna di ruang kerja Databricks Anda.

Catatan

Setiap kueri di platform Databricks yang menggunakan sumber Federasi Lakehouse dikirim ke sumber tersebut. Pastikan sistem sumber dapat menangani beban. Selain itu, ketahuilah bahwa jika sistem sumber disebarkan di wilayah cloud atau penyedia cloud yang berbeda, ada biaya egress untuk setiap kueri.

Pertimbangkan untuk mengalihkan akses ke database yang mendasarinya melalui tampilan materialisasi untuk menghindari beban tinggi atau bersamaan pada database operasional dan mengurangi biaya egress.

Menggunakan alat mitra bersertifikat

Organisasi memiliki kebutuhan yang berbeda, dan tidak ada alat tunggal yang dapat memenuhi semuanya. Partner Connect memungkinkan Anda untuk menjelajahi dan dengan mudah berintegrasi dengan mitra kami, yang mencakup semua aspek lakehouse: penyerapan data, persiapan dan transformasi, BI dan visualisasi, pembelajaran mesin, kualitas data, dan banyak lagi. Partner Connect memungkinkan Anda membuat akun uji coba dengan mitra teknologi Databricks yang dipilih dan menghubungkan ruang kerja Azure Databricks Anda ke solusi mitra dari antarmuka pengguna Azure Databricks. Coba solusi mitra menggunakan data Anda di data lakehouse Databricks, lalu adopsi solusi yang paling sesuai dengan kebutuhan bisnis Anda.

Mengurangi kompleksitas alur rekayasa data

Berinvestasi dalam mengurangi kompleksitas alur rekayasa data memungkinkan skalabilitas, kelincahan, dan fleksibilitas untuk dapat memperluas dan berinovasi lebih cepat. Alur yang disederhanakan memudahkan untuk mengelola dan menyesuaikan semua kebutuhan operasional alur rekayasa data: orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan.

Lakeflow Declarative Pipelines adalah kerangka kerja untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Anda menentukan transformasi yang ingin Anda lakukan pada data Anda, dan Lakeflow Declarative Pipelines menangani orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan. Lihat Alur Deklaratif Lakeflow.

Auto Loader secara bertahap dan efisien memproses file data baru saat tiba di penyimpanan cloud. Ini dapat dengan andal membaca file data dari penyimpanan cloud. Aspek penting dari Alur Deklaratif Lakeflow dan Auto Loader adalah sifat deklaratifnya: Tanpa mereka, seseorang harus membangun alur kompleks yang mengintegrasikan layanan cloud yang berbeda - seperti layanan pemberitahuan dan layanan antrean - untuk membaca file cloud dengan andal berdasarkan peristiwa dan untuk menggabungkan sumber batch dan streaming dengan andal.

Auto Loader dan Lakeflow Declarative Pipelines mengurangi dependensi dan kompleksitas sistem dan sangat meningkatkan interoperabilitas dengan penyimpanan cloud dan antara paradigma yang berbeda seperti batch dan streaming. Sebagai efek samping, kesederhanaan alur meningkatkan kegunaan platform.

Menggunakan infrastruktur sebagai kode (IaC) untuk penyebaran dan pemeliharaan

HashiCorp Terraform adalah alat sumber terbuka yang populer untuk menciptakan infrastruktur cloud yang aman dan dapat diprediksi di beberapa penyedia cloud. Lihat Keunggulan Operasional: Menggunakan Infrastruktur sebagai kode untuk penyebaran dan pemeliharaan

2. Menggunakan antarmuka terbuka dan membuka format data

Menggunakan format data terbuka

Menggunakan format data terbuka berarti tidak ada batasan penggunaannya. Ini penting karena menghilangkan hambatan untuk mengakses dan menggunakan data untuk analisis dan mendorong wawasan bisnis. Format terbuka, seperti yang dibangun di Apache Spark, juga menambahkan fitur yang meningkatkan performa dengan dukungan untuk transaksi ACID, streaming terpadu, dan pemrosesan data batch. Selain itu, sumber terbuka digerakkan oleh komunitas, yang berarti komunitas terus berupaya meningkatkan fitur yang ada dan menambahkan fitur baru, sehingga memudahkan pengguna untuk mendapatkan hasil maksimal dari proyek mereka.

Format data utama yang digunakan dalam Platform Kecerdasan Data adalah Delta Lake, format data terbuka penuh yang menawarkan banyak manfaat, mulai dari fitur keandalan hingga peningkatan performa, lihat Menggunakan format data yang mendukung transaksi ACID dan Praktik terbaik untuk efisiensi performa.

Karena sumber terbuka, Delta Lake memiliki ekosistem yang besar. Puluhan alat dan aplikasi pihak ketiga mendukung Delta Lake. Untuk lebih meningkatkan interoperabilitas, tabel Delta dapat dibaca dengan klien pembaca Apache Iceberg. Satu salinan file data melayani kedua format, memastikan metadata yang tepat untuk pembaca yang berbeda.

Berbagi data dan aset AI dapat menyebabkan kolaborasi dan pengambilan keputusan yang lebih baik. Namun, saat berbagi data, penting untuk mempertahankan kontrol, melindungi data Anda, dan memastikan kepatuhan terhadap undang-undang dan peraturan berbagi data yang relevan.

Berbagi Delta adalah protokol terbuka yang dikembangkan oleh Databricks untuk berbagi data dengan aman dengan organisasi lain, terlepas dari platform komputasi yang mereka gunakan. Jika Anda ingin berbagi data dengan pengguna di luar ruang kerja Databricks Anda, terlepas dari apakah mereka menggunakan Databricks, Anda dapat menggunakan Buka Berbagi Delta untuk berbagi data Anda dengan aman. Jika Anda ingin berbagi data dengan pengguna yang memiliki ruang kerja Databricks yang diaktifkan untuk Unity Catalog, Anda dapat menggunakan Databricks-to-Databricks Delta Sharing.

Dalam kedua kasus, Anda bisa berbagi tabel, tampilan, volume, model, dan buku catatan.

Gunakan protokol Berbagi Delta terbuka untuk berbagi data dengan mitra.

Berbagi Delta menyediakan solusi terbuka untuk berbagi data langsung dengan aman dari lakehouse Anda ke platform komputasi apa pun. Penerima tidak perlu berada di platform Databricks, di cloud yang sama, atau di cloud apa pun sama sekali. Delta Sharing terintegrasi secara native dengan Unity Catalog, memungkinkan organisasi mengelola dan mengaudit data bersama dan aset AI secara terpusat di seluruh perusahaan serta dengan percaya diri berbagi data dan aset AI yang memenuhi persyaratan keamanan dan kepatuhan.

Penyedia data dapat berbagi data langsung dan model AI dari tempat mereka disimpan di platform data tanpa mereplikasi atau memindahkannya ke sistem lain. Pendekatan ini mengurangi biaya operasional data dan berbagi AI karena penyedia data tidak perlu mereplikasi data beberapa kali di seluruh cloud, geografi, atau platform data ke setiap konsumen data mereka.
Gunakan fitur Delta Sharing dari Databricks ke Databricks di antara sesama pengguna Databricks.

Jika Anda ingin berbagi data dengan pengguna yang tidak memiliki akses ke metastore Unity Catalog, Anda dapat menggunakan Databricks-to-Databricks Delta Sharing, selama penerima memiliki akses ke ruang kerja Databricks yang diaktifkan untuk Unity Catalog. Berbagi Databricks-ke-Databricks memungkinkan Anda berbagi data dengan pengguna yang memiliki akun Databricks lain, pada seluruh wilayah cloud, dan pada seluruh penyedia cloud. Ini adalah cara yang bagus untuk berbagi data dengan aman di berbagai metastore Unity Catalog dalam akun Databricks Anda sendiri.

Menggunakan standar terbuka untuk manajemen siklus hidup ML Anda

Seperti menggunakan format data sumber terbuka, menggunakan standar terbuka untuk alur kerja AI Anda memiliki manfaat yang sama dalam hal fleksibilitas, kelincahan, biaya, dan keamanan.

MLflow adalah platform sumber terbuka untuk mengelola siklus hidup ML dan AI. Databricks menawarkan versi MLflow yang dikelola sepenuhnya dan dihosting, terintegrasi dengan fitur keamanan perusahaan, ketersediaan tinggi, dan fitur ruang kerja Databricks lainnya seperti eksperimen dan menjalankan manajemen dan pelacakan revisi buku catatan.

Komponen utama adalah pelacakan eksperimen untuk mencatat dan melacak model pembelajaran mendalam dan ML secara otomatis, model sebagai format standar untuk mengemas model pembelajaran mesin, registri model yang terintegrasi dengan Unity Catalog, dan penyajian model tingkat perusahaan yang dapat diskalakan.

3. Menyederhanakan implementasi kasus penggunaan baru

Memberikan pengalaman layanan mandiri di seluruh platform

Ada beberapa manfaat platform di mana pengguna memiliki otonomi untuk menggunakan alat dan kemampuan tergantung pada kebutuhan mereka. Berinvestasi dalam membuat platform layanan mandiri memudahkan untuk menskalakan untuk melayani lebih banyak pengguna dan mendorong efisiensi yang lebih besar dengan meminimalkan kebutuhan keterlibatan manusia untuk memprovisikan pengguna, menyelesaikan masalah, dan memproses permintaan akses.

Platform Data Intelligence Databricks memiliki semua kemampuan yang diperlukan untuk memberikan pengalaman layanan mandiri. Meskipun mungkin ada langkah persetujuan wajib, praktik terbaik adalah sepenuhnya mengotomatisasi pengaturan ketika unit bisnis mengajukan permintaan akses ke lakehouse. Secara otomatis menyediakan lingkungan baru mereka, menyinkronkan pengguna dan menggunakan SSO untuk autentikasi, menyediakan kontrol akses ke data bersama dan penyimpanan objek terpisah untuk data mereka sendiri, dan sebagainya. Bersama dengan katalog data pusat dari himpunan data yang siap bisnis dan konsisten secara semantik, unit bisnis baru dapat dengan cepat dan aman mengakses kemampuan lakehouse serta data yang mereka butuhkan.

Menggunakan komputasi tanpa server

Untuk komputasi tanpa server pada platform Azure Databricks, lapisan komputasi berjalan di akun Databricks pelanggan. Administrator cloud tidak perlu lagi mengelola lingkungan cloud kompleks yang memerlukan penyesuaian kuota, membuat dan memelihara sumber daya jaringan, dan menyambungkan ke sumber penagihan. Pengguna mendapat manfaat dari waktu tunggu saat memulai kluster yang hampir nol dan kemampuan memproses beberapa kueri secara bersamaan yang ditingkatkan.

Menggunakan templat komputasi yang telah ditentukan sebelumnya

Templat yang telah ditentukan sebelumnya membantu mengontrol bagaimana sumber daya komputasi dapat digunakan atau dibuat oleh pengguna: Membatasi pembuatan kluster pengguna ke pengaturan yang ditentukan atau jumlah tertentu, menyederhanakan antarmuka pengguna, atau mengontrol biaya dengan membatasi biaya maksimum per kluster.

Platform Inteligensi Data menyelesaikan ini dengan dua cara:

Sediakan kluster bersama sebagai lingkungan langsung untuk pengguna. Pada kluster ini, gunakan penskalaan otomatis ke jumlah simpul yang sangat minimal untuk menghindari biaya menganggur yang tinggi.
Untuk lingkungan standar, gunakan kebijakan komputasi untuk membatasi ukuran atau fitur kluster atau untuk menentukan kluster berukuran t-shirt (S, M, L).

Menggunakan kemampuan AI untuk meningkatkan produktivitas

Selain meningkatkan produktivitas, alat AI juga dapat membantu mengidentifikasi pola dalam kesalahan dan memberikan wawasan tambahan berdasarkan input. Secara keseluruhan, memasukkan alat-alat ini ke dalam proses pengembangan dapat sangat mengurangi kesalahan dan memfasilitasi pengambilan keputusan - yang mengarah ke waktu rilis yang lebih cepat.

Databricks IQ, mesin pengetahuan yang didukung AI, adalah inti dari Platform Inteligensi Data. Ini memanfaatkan metadata Unity Catalog untuk memahami tabel, kolom, deskripsi, dan aset data populer Anda di seluruh organisasi Anda untuk memberikan jawaban yang dipersonalisasi. Ini memungkinkan beberapa fitur yang meningkatkan produktivitas saat bekerja dengan platform, seperti:

Asisten Databricks memungkinkan Anda mengkueri data melalui antarmuka percakapan, membuat Anda lebih produktif di Databricks. Jelaskan tugas Anda dalam bahasa Inggris dan biarkan wizard menghasilkan kueri SQL, menjelaskan kode kompleks, dan secara otomatis memperbaiki kesalahan.
Komentar yang dihasilkan AI untuk tabel atau kolom tabel apa pun yang dikelola oleh Unity Catalog mempercepat proses manajemen metadata. Namun, model AI tidak selalu akurat dan komentar harus ditinjau sebelum disimpan. Databricks sangat merekomendasikan tinjauan manusia terhadap komentar yang dihasilkan AI untuk memeriksa ketidakakuratan.

4. Memastikan konsistensi dan kegunaan data

Menawarkan data sebagai produk yang dapat digunakan kembali yang dapat dipercaya oleh bisnis

Organisasi yang ingin menjadi berbasis AI dan data sering kali perlu menyediakan data berkualitas tinggi dan dapat dipercaya kepada tim internal mereka. Salah satu pendekatan untuk memprioritaskan kualitas dan kegunaan adalah menerapkan pemikiran produk ke aset data yang diterbitkan dengan membuat "produk data" yang terdefinisi dengan baik. Membangun produk data tersebut memastikan bahwa organisasi menetapkan standar dan fondasi tepercaya kebenaran bisnis untuk data dan tujuan AI mereka. Produk data pada akhirnya memberikan nilai ketika pengguna dan aplikasi memiliki data yang tepat, pada waktu yang tepat, dengan kualitas yang tepat, dalam format yang tepat. Meskipun nilai ini secara tradisional telah diwujudkan dalam bentuk operasi yang lebih efisien melalui biaya yang lebih rendah, proses yang lebih cepat, dan pengurangan risiko, produk data modern juga dapat membuka jalan untuk penawaran bernilai tambah baru dan peluang berbagi data dalam industri organisasi atau ekosistem mitra.

Lihat posting blog Membangun High-Quality dan Produk Data Tepercaya dengan Databricks.

Menerbitkan produk data secara semantik konsisten di seluruh perusahaan

Data lake biasanya berisi data dari beberapa sistem sumber. Sistem ini mungkin memiliki nama yang berbeda untuk konsep yang sama (misalnya, pelanggan vs . akun) atau menggunakan pengidentifikasi yang sama untuk merujuk ke konsep yang berbeda. Sehingga pengguna bisnis dapat dengan mudah menggabungkan himpunan data ini dengan cara yang bermakna, data harus dibuat homogen di semua sumber agar konsisten secara semantik. Selain itu, agar beberapa data berharga untuk analisis, aturan bisnis internal, seperti pengenalan pendapatan, harus diterapkan dengan benar. Untuk memastikan bahwa semua pengguna menggunakan data yang ditafsirkan dengan benar, himpunan data dengan aturan ini harus tersedia dan diterbitkan ke Unity Catalog. Akses ke data sumber harus dibatasi untuk tim yang memahami penggunaan yang benar.

Menyediakan katalog pusat untuk penemuan dan silsilah data

Katalog pusat untuk penemuan dan silsilah data membantu konsumen data mengakses data dari berbagai sumber di seluruh perusahaan, sehingga mengurangi overhead operasional untuk tim tata kelola pusat.

Di Unity Catalog, administrator dan pengurus data mengelola pengguna dan akses mereka ke data secara terpusat di semua ruang kerja di akun Azure Databricks. Pengguna di ruang kerja yang berbeda dapat berbagi data yang sama dan, tergantung pada hak istimewa pengguna yang diberikan secara terpusat di Katalog Unity, dapat mengakses data bersama-sama.

Untuk penemuan data, Unity Catalog mendukung pengguna dengan kemampuan seperti:

Catalog Explorer adalah antarmuka pengguna utama untuk banyak fitur Katalog Unity. Anda dapat menggunakan Catalog Explorer untuk melihat detail skema, mempratinjau data sampel, dan melihat detail dan properti tabel. Administrator dapat melihat dan mengubah pemilik, serta administrator dan pemilik objek data dapat memberikan dan mencabut izin. Anda juga dapat menggunakan Databricks Search, yang memungkinkan pengguna menemukan aset data dengan mudah dan lancar (seperti tabel, kolom, tampilan, dasbor, model, dan sebagainya). Pengguna ditampilkan hasil yang relevan dengan permintaan pencarian mereka dan yang dapat mereka akses.
Garis keturunan data di semua kueri yang dijalankan di kluster Azure Databricks atau gudang SQL. Linimasa data didukung untuk semua bahasa dan dicatat hingga tingkat kolom. Data garis keturunan mencakup buku catatan, tugas, dan dasbor yang terkait dengan kueri. Garis keturunan data dapat divisualisasikan di Catalog Explorer hampir waktu nyata dan diambil dengan REST API Azure Databricks.

Untuk memungkinkan perusahaan memberi pengguna mereka tampilan holistik dari semua data di semua platform data, Unity Catalog menyediakan integrasi dengan katalog data perusahaan (terkadang disebut sebagai "katalog katalog").