Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Pergudangan data mengacu pada pengumpulan dan penyimpanan data dari berbagai sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Artikel ini berisi konsep utama untuk membangun gudang data di data lakehouse Anda.
Pergudangan data di lakehouse Anda
Arsitektur lakehouse dan Databricks SQL membawa kapabilitas penyimpanan data di awan ke danau data Anda. Dengan menggunakan struktur data, relasi, dan alat manajemen yang familier, Anda dapat memodelkan gudang data dengan performa tinggi dan hemat biaya yang berjalan langsung di data lake Anda. Untuk informasi selengkapnya, lihat Apa itu lakehouse?
Seperti halnya gudang data tradisional, Anda memodelkan data sesuai dengan persyaratan bisnis dan kemudian menyajikannya kepada pengguna akhir Anda untuk analitik dan laporan. Tidak seperti gudang data tradisional, Anda dapat menghindari pemisahan data analitik bisnis Anda atau membuat salinan yang berlebihan yang dengan cepat menjadi usang.
Membangun gudang data di dalam lakehouse memungkinkan Anda untuk membawa semua data Anda ke dalam satu sistem dan memanfaatkan fitur seperti Unity Catalog dan Delta Lake.
Unity Catalog menambahkan model tata kelola terpadu sehingga Anda dapat mengamankan dan mengaudit akses data dan memberikan informasi silsilah data pada tabel hilir. Delta Lake menambahkan transaksi ACID dan evolusi skema, di antara alat canggih lainnya untuk menjaga data Anda tetap andal, dapat diskalakan, dan berkualitas tinggi.
Apa itu Databricks SQL?
Nota
Databricks SQL Serverless tidak tersedia di Azure Tiongkok. Databricks SQL tidak tersedia di wilayah Azure Government.
Databricks SQL adalah kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake Anda yang ada. Databricks SQL mendukung format terbuka dan ANSI SQL standar. Editor SQL dalam platform dan alat dasbor memungkinkan anggota tim untuk berkolaborasi dengan pengguna Azure Databricks lainnya langsung di ruang kerja. Databricks SQL juga terintegrasi dengan berbagai alat sehingga analis dapat menulis kueri dan dasbor di lingkungan favorit mereka tanpa menyesuaikan dengan platform baru.
Databricks SQL menyediakan sumber daya komputasi yang umum digunakan dan dijalankan terhadap tabel di Lakehouse. Databricks SQL didukung oleh gudang SQL, sebelumnya disebut titik akhir SQL, dan menawarkan sumber daya komputasi SQL yang dapat diskalakan yang terpisah dari penyimpanan.
Lihat Gudang SQL untuk informasi selengkapnya tentang default dan opsi SQL Warehouse.
Databricks SQL terintegrasi dengan Unity Catalog, memungkinkan Anda menemukan, mengaudit, dan mengatur aset data dari satu tempat. Untuk mempelajari selengkapnya, lihat Apa itu Katalog Unity?
Pemodelan data pada Azure Databricks
Lakehouse mendukung berbagai gaya pemodelan. Gambar berikut menunjukkan bagaimana data dikurasi dan dimodelkan saat bergerak melalui berbagai lapisan dari sebuah lakehouse.
Arsitektur untuk medali
Arsitektur medali adalah pola desain data yang menjelaskan serangkaian lapisan data yang disempurnakan secara bertahap yang menyediakan struktur dasar di lakehouse. Lapisan perunggu, perak, dan emas menandakan peningkatan tingkat kualitas data, dengan emas mewakili kualitas tertinggi. Untuk informasi selengkapnya, lihat Apa arsitektur medallion lakehouse itu?.
Dalam sebuah lakehouse, setiap lapisan dapat berisi satu atau lebih tabel. Gudang data dimodelkan dalam lapisan perak dan mengalirkan data mart khusus di lapisan emas.
Lapisan perunggu
Data dapat memasuki lakehouse Anda dalam format apa pun dan melalui kombinasi transaksi batch atau streaming apa pun. Lapisan perunggu menyediakan ruang pendaratan untuk semua data mentah Anda dalam format aslinya. Data tersebut dikonversi ke tabel Delta.
Lapisan perak
Lapisan perak menyaingkan data dari sumber yang berbeda. Untuk bagian dari bisnis yang berfokus pada ilmu data dan aplikasi pembelajaran mesin, di sinilah Anda mulai mengumpulkan aset data yang bermakna. Proses ini sering ditandai dengan fokus pada kecepatan dan kelincahan.
Lapisan perak juga di mana Anda dapat dengan hati-hati mengintegrasikan data dari sumber yang berbeda untuk membangun gudang data selaras dengan proses bisnis Anda yang ada. Seringkali, data ini mengikuti model Formulir Normal Ketiga (3NF) atau Data Vault. Menentukan batasan kunci utama dan asing memungkinkan pengguna akhir untuk memahami hubungan tabel saat menggunakan Katalog Unity. Gudang data Anda harus berfungsi sebagai sumber kebenaran tunggal untuk mart data Anda.
Gudang data itu sendiri menggunakan skema saat menulis dan bersifat atomik. Ini dioptimalkan untuk perubahan, sehingga Anda dapat dengan cepat memodifikasi gudang data agar sesuai dengan kebutuhan Anda saat ini ketika proses bisnis Anda berubah atau berkembang.
Lapisan emas
Lapisan emas adalah lapisan presentasi, yang dapat berisi satu atau beberapa data mart. Sering kali, mart data adalah model dimensi dalam bentuk sekumpulan tabel terkait yang menangkap perspektif bisnis tertentu.
Lapisan emas juga menampung kotak pasir departemen dan ilmu data untuk memungkinkan analitik layanan mandiri dan ilmu data di seluruh perusahaan. Menyediakan sandbox ini dan kluster komputasi terpisah mereka sendiri mencegah tim Bisnis membuat salinan data di luar lakehouse.
Langkah selanjutnya
Untuk mempelajari selengkapnya tentang prinsip dan praktik terbaik untuk menerapkan dan mengoperasikan lakehouse menggunakan Azure Databricks, lihat Arsitektur Lakehouse.