Apa itu gudang data di Azure Databricks?

Pergudangan data mengacu pada pengumpulan dan penyimpanan data dari berbagai sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Artikel ini berisi konsep utama untuk membangun gudang data di data lakehouse Anda.

Pergudangan data di lakehouse Anda

Arsitektur lakehouse dan Databricks SQL menghadirkan kemampuan pergudangan data cloud ke data lake Anda. Dengan menggunakan struktur data, relasi, dan alat manajemen yang familier, Anda dapat memodelkan gudang data dengan performa tinggi dan hemat biaya yang berjalan langsung di data lake Anda. Untuk informasi selengkapnya, lihat Apa itu data lakehouse?

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

Seperti halnya gudang data tradisional, Anda memodelkan data sesuai dengan persyaratan bisnis dan kemudian menyajikannya kepada pengguna akhir Anda untuk analitik dan laporan. Tidak seperti gudang data tradisional, Anda dapat menghindari siloing data analitik bisnis Anda atau membuat salinan redundan yang dengan cepat menjadi basi.

Membangun gudang data di dalam lakehouse memungkinkan Anda membawa semua data Anda ke dalam satu sistem dan memungkinkan Anda memanfaatkan fitur seperti Unity Catalog dan Delta Lake.

Unity Catalog menambahkan model tata kelola terpadu sehingga Anda dapat mengamankan dan mengaudit akses data dan memberikan informasi silsilah data pada tabel hilir. Delta Lake menambahkan transaksi ACID dan evolusi skema, di antara alat canggih lainnya untuk menjaga data Anda tetap andal, dapat diskalakan, dan berkualitas tinggi.

Apa itu Databricks SQL?

Catatan

Databricks SQL Serverless tidak tersedia di Azure Tiongkok. Databricks SQL tidak tersedia di wilayah Azure Government.

Databricks SQL adalah kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake Anda yang ada. Databricks SQL mendukung format terbuka dan ANSI SQL standar. Editor SQL dalam platform dan alat dasbor memungkinkan anggota tim untuk berkolaborasi dengan pengguna Databricks lainnya langsung di ruang kerja. Databricks SQL juga terintegrasi dengan berbagai alat sehingga analis dapat menulis kueri dan dasbor di lingkungan favorit mereka tanpa menyesuaikan dengan platform baru.

Databricks SQL menyediakan sumber daya komputasi umum yang dijalankan terhadap tabel di lakehouse. Databricks SQL didukung oleh gudang SQL, menawarkan sumber daya komputasi SQL yang dapat diskalakan yang dipisahkan dari penyimpanan.

Lihat Apa itu gudang SQL? untuk informasi selengkapnya tentang default dan opsi SQL Warehouse.

Databricks SQL terintegrasi dengan Unity Catalog sehingga Anda dapat menemukan, mengaudit, dan mengatur aset data dari satu tempat. Untuk mempelajari lebih lanjut, lihat Apa itu Katalog Unity?

Pemodelan data di Azure Databricks

Lakehouse mendukung berbagai gaya pemodelan. Gambar berikut menunjukkan bagaimana data dikumpulkan dan dimodelkan saat bergerak melalui lapisan lakehouse yang berbeda.

A diagram showing various data models at each level of the medallion lakehouse archtecture.

Arsitektur untuk medali

Arsitektur medali adalah pola desain data yang menjelaskan serangkaian lapisan data yang disempurnakan secara bertahap yang menyediakan struktur dasar di lakehouse. Lapisan perunggu, perak, dan emas menandakan peningkatan kualitas data di setiap level, dengan emas mewakili kualitas tertinggi. Untuk informasi selengkapnya, lihat Apa itu arsitektur medallion lakehouse?.

Di dalam lakehouse, setiap lapisan dapat berisi satu atau beberapa tabel. Gudang data dimodelkan pada lapisan perak dan memberi umpan mart data khusus di lapisan emas.

Lapisan perunggu

Data dapat memasuki lakehouse Anda dalam format apa pun dan melalui kombinasi transaksi batch atau pengukusan apa pun. Lapisan perunggu menyediakan ruang pendaratan untuk semua data mentah Anda dalam format aslinya. Data tersebut dikonversi ke tabel Delta.

Lapisan perak

Lapisan perak menyaingkan data dari sumber yang berbeda. Untuk bagian dari bisnis yang berfokus pada ilmu data dan aplikasi pembelajaran mesin, di sinilah Anda mulai mengumpulkan aset data yang bermakna. Proses ini sering ditandai dengan fokus pada kecepatan dan kelincahan.

Lapisan perak juga di mana Anda dapat dengan hati-hati mengintegrasikan data dari sumber yang berbeda untuk membangun gudang data selaras dengan proses bisnis Anda yang ada. Seringkali, data ini mengikuti model Formulir Normal Ketiga (3NF) atau Data Vault. Menentukan batasan kunci utama dan asing memungkinkan pengguna akhir untuk memahami hubungan tabel saat menggunakan Katalog Unity. Gudang data Anda harus berfungsi sebagai sumber kebenaran tunggal untuk mart data Anda.

Gudang data itu sendiri adalah skema-on-write dan atomik. Ini dioptimalkan untuk perubahan, sehingga Anda dapat dengan cepat memodifikasi gudang data agar sesuai dengan kebutuhan Anda saat ini ketika proses bisnis Anda berubah atau berkembang.

Lapisan emas

Lapisan emas adalah lapisan presentasi, yang dapat berisi satu atau beberapa data mart. Sering kali, mart data adalah model dimensi dalam bentuk sekumpulan tabel terkait yang menangkap perspektif bisnis tertentu.

Lapisan emas juga menampung kotak pasir departemen dan ilmu data untuk memungkinkan analitik layanan mandiri dan ilmu data di seluruh perusahaan. Menyediakan kotak pasir ini dan kluster komputasi terpisah mereka sendiri mencegah tim Bisnis membuat salinan data di luar lakehouse.

Langkah selanjutnya

Untuk mempelajari selengkapnya tentang prinsip dan praktik terbaik untuk menerapkan dan mengoperasikan lakehouse menggunakan Databricks, lihat Pengantar data lakehouse yang dirancang dengan baik.