Bagikan melalui


Arsitektur data lakehouse: Kerangka kerja databricks yang dirancang dengan baik

Kumpulan artikel arsitektur data lakehouse ini memberikan prinsip dan praktik terbaik untuk implementasi dan pengoperasian lakehouse menggunakan Azure Databricks.

Kerangka kerja databricks yang dirancang dengan baik untuk lakehouse

Kerangka kerja yang dirancang dengan baik: diagram data lakehouse.

Lakehouse yang dirancang dengan baik terdiri dari 7 pilar yang menggambarkan berbagai bidang kekhawatiran terhadap implementasi data lakehouse di cloud:

  • Tata kelola data

    Pengawasan untuk memastikan bahwa data membawa nilai dan mendukung strategi bisnis Anda.

  • Interoperabilitas dan kegunaan

    Kemampuan lakehouse untuk berinteraksi dengan pengguna dan sistem lainnya.

  • Keunggulan operasional

    Semua proses operasi yang menjaga lakehouse tetap berjalan dalam produksi.

  • Keamanan, privasi, dan kepatuhan

    Lindungi aplikasi Azure Databricks, beban kerja pelanggan, dan data pelanggan dari ancaman.

  • Keandalan

    Kemampuan sistem untuk pulih dari kegagalan dan dapat terus berfungsi.

  • Efisiensi performa

    Kemampuan sistem untuk beradaptasi dengan perubahan beban.

  • Pengoptimalan biaya

    Mengelola biaya untuk memaksimalkan nilai yang diberikan.

Lakehouse yang dirancang dengan baik memperluas Kerangka Kerja Microsoft Azure Well-Architected ke Platform Kecerdasan Databricks dan berbagi pilar "Keunggulan Operasional", "Keamanan" (sebagai "Keamanan, privasi, dan kepatuhan"), "Keandalan", "Efisiensi Performa" dan "Pengoptimalan Biaya".

Untuk kelima pilar ini, prinsip dan praktik terbaik kerangka kerja cloud masih berlaku untuk lakehouse. Lakehouse yang dirancang dengan baik memperluas ini dengan prinsip dan praktik terbaik yang khusus untuk lakehouse dan penting untuk membangun lakehouse yang efektif dan efisien.

Tata Kelola dan Interoperabilitas Data & Kegunaan dalam arsitektur lakehouse

Pilar "Tata Kelola Data" dan "Interoperabilitas dan Kegunaan" mencakup masalah khusus untuk lakehouse.

Tata kelola data merangkum kebijakan dan praktik yang diterapkan untuk mengelola aset data dengan aman dalam suatu organisasi. Salah satu aspek mendasar dari lakehouse adalah tata kelola data terpusat: Lakehouse menyaingkan pergudangan data dan AI menggunakan kasus pada satu platform. Ini menyederhanakan tumpukan data modern dengan menghilangkan silo data yang secara tradisional memisahkan dan mempersulit rekayasa data, analitik, BI, ilmu data, dan pembelajaran mesin. Untuk menyederhanakan tata kelola data, lakehouse menawarkan solusi tata kelola terpadu untuk data, analitik, dan AI. Dengan meminimalkan salinan data Anda dan pindah ke satu lapisan pemrosesan data di mana semua kontrol tata kelola data Anda dapat berjalan bersama-sama, Anda meningkatkan kemungkinan Anda untuk tetap mematuhi dan mendeteksi pelanggaran data.

Tenet penting lain dari lakehouse adalah memberikan pengalaman pengguna yang hebat untuk semua persona yang bekerja dengannya, dan untuk dapat berinteraksi dengan ekosistem sistem eksternal yang luas. Azure sudah memiliki berbagai alat data yang melakukan sebagian besar tugas yang mungkin diperlukan perusahaan berbasis data. Namun, alat-alat ini harus dirakit dengan benar untuk menyediakan semua fungsionalitas, dengan setiap layanan menawarkan pengalaman pengguna yang berbeda. Pendekatan ini dapat menyebabkan biaya implementasi yang tinggi dan biasanya tidak memberikan pengalaman pengguna yang sama dengan platform lakehouse asli: Pengguna dibatasi oleh inkonsistensi antara alat dan kurangnya kemampuan kolaborasi, dan sering kali harus melalui proses yang kompleks untuk mendapatkan akses ke sistem dan dengan demikian ke data.

Lakehouse terintegrasi di sisi lain memberikan pengalaman pengguna yang konsisten di semua beban kerja dan karenanya meningkatkan kegunaan. Ini mengurangi biaya pelatihan dan orientasi dan meningkatkan kolaborasi antar fungsi. Selain itu, fitur baru secara otomatis ditambahkan dari waktu ke waktu - untuk lebih meningkatkan pengalaman pengguna - tanpa perlu menginvestasikan sumber daya dan anggaran internal.

Pendekatan multi-cloud dapat menjadi strategi yang disengaja dari perusahaan atau hasil merger dan akuisisi atau unit bisnis independen yang memilih penyedia cloud yang berbeda. Dalam hal ini, menggunakan lakehouse multi-cloud menghasilkan pengalaman pengguna terpadu di semua cloud. Ini mengurangi proliferasi sistem di seluruh perusahaan, yang pada gilirannya mengurangi persyaratan keterampilan dan pelatihan karyawan yang terlibat dalam tugas berbasis data.

Akhirnya, di dunia jaringan dengan proses bisnis lintas perusahaan, sistem harus bekerja sama semulus mungkin. Tingkat interoperabilitas adalah kriteria penting di sini, dan data terbaru, sebagai aset inti dari bisnis apa pun, harus mengalir dengan aman antara sistem mitra internal dan eksternal.

Prinsip dan praktik terbaik