Memahami konsep database lake

3 menit

Dalam database hubungan tradisional, skema database terdiri dari tabel, tampilan, dan objek lainnya. Tabel dalam database hubungan menentukan entitas tempat data disimpan - misalnya, database ritel mungkin menyertakan tabel untuk produk, pelanggan, dan pesanan. Setiap entitas terdiri dari sekumpulan atribut yang ditetapkan sebagai kolom dalam tabel, dan setiap kolom memiliki nama dan tipe data. Data untuk tabel disimpan dalam database, dan digabungkan erat dengan definisi tabel; yang menerapkan tipe data, nullability, keunikan kunci, dan integritas referensial antara kunci terkait. Semua kueri dan manipulasi data harus dilakukan melalui sistem database.

Di data lake, tidak ada skema tetap. Data disimpan dalam file, yang mungkin terstruktur, semi-terstruktur, atau tidak terstruktur. Aplikasi dan analis data dapat bekerja secara langsung dengan file di data lake menggunakan alat pilihan mereka; tanpa batasan dari sistem database hubungan.

Database lake menyediakan lapisan metadata relasional atas satu atau beberapa file di data lake. Anda dapat membuat database lake yang menyertakan definisi untuk tabel, termasuk nama kolom dan tipe data serta hubungan antara kolom kunci utama dan asing. Tabel mereferensikan file di data lake, memungkinkan Anda menerapkan semantik relasional untuk bekerja dengan data dan mengkueri data menggunakan SQL. Namun, penyimpanan file data dipisahkan dari skema database; memungkinkan lebih banyak fleksibilitas daripada yang biasanya ditawarkan oleh sistem database hubungan.

Diagram skema relasional tabel tertaut yang melapisi file di penyimpanan file.

Skema database lake

Anda dapat membuat database lake di Azure Synapse Analytics, dan menentukan tabel yang mewakili entitas yang Anda perlukan untuk menyimpan data. Anda dapat menerapkan prinsip pemodelan data yang terbukti untuk membuat hubungan antara tabel dan menggunakan konvensi penamaan yang sesuai untuk tabel, kolom, dan objek database lainnya.

Azure Synapse Analytics menyertakan antarmuka desain database grafis yang dapat Anda gunakan untuk memodelkan skema database yang kompleks, menggunakan banyak praktik terbaik yang sama untuk desain database yang akan Anda terapkan ke database tradisional.

Penyimpanan database lake

Data untuk tabel di database lake Anda disimpan di data lake sebagai file Parquet atau CSV. File dapat dikelola secara terpisah dari tabel database, membuatnya lebih mudah untuk mengelola penyerapan dan manipulasi data dengan berbagai macam alat dan teknologi pemrosesan data.

Komputasi database lake

Untuk mengkueri dan memanipulasi data melalui tabel yang telah Anda tetapkan, Anda dapat menggunakan kumpulan SQL tanpa server Azure Synapse untuk menjalankan kueri SQL atau kumpulan Azure Synapse Apache Spark untuk bekerja dengan tabel menggunakan Spark SQL API.

Saran dan Komentar

Apakah halaman ini membantu?