Apa arsitektur medali lakehouse?

Arsitektur medali menjelaskan serangkaian lapisan data yang menunjukkan kualitas data yang disimpan di lakehouse. Databricks merekomendasikan untuk mengambil pendekatan berlapis untuk membangun satu sumber kebenaran untuk produk data perusahaan. Arsitektur ini menjamin atomitas, konsistensi, isolasi, dan durabilitas saat data melewati beberapa lapisan validasi dan transformasi sebelum disimpan dalam tata letak yang dioptimalkan untuk analitik yang efisien. Istilah perunggu (mentah), perak (divalidasi), dan emas (diperkaya) menggambarkan kualitas data di masing-masing lapisan ini.

Penting untuk dicatat bahwa arsitektur medali ini tidak menggantikan teknik pemodelan dimensi lainnya. Skema dan tabel dalam setiap lapisan dapat mengambil berbagai bentuk dan derajat normalisasi tergantung pada frekuensi dan sifat pembaruan data dan kasus penggunaan hilir untuk data.

Organisasi dapat memanfaatkan Databricks lakehouse untuk membuat dan memelihara himpunan data tervalidasi yang dapat diakses di seluruh perusahaan. Mengadopsi pola pikir organisasi yang berfokus pada pengumpulan data sebagai produk adalah langkah kunci dalam berhasil membangun data lakehouse.

Menyerap data mentah ke lapisan perunggu

Lapisan perunggu berisi data yang tidak valid. Data yang diserap dalam lapisan perunggu biasanya:

  • Mempertahankan status mentah sumber data.
  • Ditambahkan secara bertahap dan tumbuh dari waktu ke waktu.
  • Dapat berupa kombinasi transaksi streaming dan batch apa pun.

Mempertahankan riwayat lengkap yang tidak diolah dari setiap himpunan data dalam format penyimpanan yang efisien memberikan kemampuan untuk membuat ulang status sistem data tertentu.

Metadata tambahan (seperti nama file sumber atau perekaman data waktu diproses) dapat ditambahkan ke data tentang penyerapan untuk penyerapan yang ditingkatkan, deskripsi status himpunan data sumber, dan performa yang dioptimalkan dalam aplikasi hilir.

Memvalidasi dan mendeduplikasi data di lapisan perak

Ingat bahwa meskipun lapisan perunggu berisi seluruh riwayat data dalam keadaan hampir mentah, lapisan perak mewakili versi data kami yang diperkaya yang divalidasi dan diperkaya yang dapat dipercaya untuk analitik hilir.

Sementara Databricks percaya sangat dalam visi lakehouse yang digerakkan oleh meja perunggu, perak, dan emas, hanya mengimplementasikan lapisan perak secara efisien akan segera membuka banyak manfaat potensial dari lakehouse.

Untuk alur data apa pun, lapisan perak mungkin berisi lebih dari satu tabel.

Analitik daya dengan lapisan emas

Data emas ini sering kali sangat disempurnakan dan diagregasi, berisi data yang mendukung analitik, pembelajaran mesin, dan aplikasi produksi. Meskipun semua tabel di lakehouse harus melayani tujuan penting, tabel emas mewakili data yang telah diubah menjadi pengetahuan, bukan hanya informasi.

Analis sebagian besar mengandalkan tabel emas untuk tanggung jawab inti mereka, dan data yang dibagikan dengan pelanggan jarang akan disimpan di luar tingkat ini.

Pembaruan untuk tabel ini diselesaikan sebagai bagian dari beban kerja produksi yang dijadwalkan secara teratur, yang membantu mengontrol biaya dan memungkinkan perjanjian tingkat layanan (SLA) agar kesegaran data dibuat.

Meskipun lakehouse tidak memiliki masalah kebuntuan yang sama dengan yang mungkin Anda temui di gudang data perusahaan, tabel emas sering disimpan dalam kontainer penyimpanan terpisah untuk membantu menghindari batas cloud pada permintaan data.

Secara umum, karena agregasi, gabungan, dan pemfilteran ditangani sebelum data ditulis ke lapisan emas, pengguna akan melihat performa kueri latensi rendah pada data dalam tabel emas.