Apa itu Danau Delta?
Delta Lake adalah lapisan penyimpanan sumber terbuka yang menghadirkan transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) ke Apache Spark dan beban kerja big data.
Versi saat ini dari Delta Lake yang disertakan dengan Azure Synapse memiliki dukungan bahasa pemrogram untuk Scala, PySpark, dan .NET. serta kompatibel dengan Linux Foundation Delta Lake. Ada tautan di bagian bawah halaman untuk contoh dan dokumentasi yang lebih mendetail. Anda dapat mempelajari lebih lanjut dari video Pengantar Tabel Delta.
Fitur utama
Fitur | Deskripsi |
---|---|
Transaksi ACID | Data lake biasanya diisi melalui beberapa proses dan alur, beberapa di antaranya menulis data secara bersamaan dengan bacaan. Sebelum Delta Lake dan penambahan transaksi, teknisi data harus melalui proses rawan kesalahan manual untuk memastikan integritas data. Delta Lake membawa transaksi ACID yang akrab ke data lake. Ini memberikan kemampuan serialisasi, yang merupakan tingkat isolasi terkuat. Pelajari selengkapnya di Menyelam ke Delta Lake: Membongkar Log Transaksi. |
Penanganan Metadata yang Dapat Diskalakan | Dalam big data, bahkan metadata itu sendiri bisa menjadi "big data." Delta Lake memperlakukan metadata seperti data, memanfaatkan daya pemrosesan terdistribusi Spark untuk menangani semua metadatanya. Akibatnya, Delta Lake dapat menangani tabel skala petabyte dengan miliaran partisi dan file dengan mudah. |
Perjalanan Waktu (penerapan versi data) | Kemampuan untuk "membatalkan" perubahan atau kembali ke versi sebelumnya adalah salah satu kunci fitur transaksi. Delta Lake menyediakan snapshot data yang memungkinkan Anda kembali ke versi lama data untuk audit, pemulihan, atau memproduksi ulang eksperimen. Pelajari selengkapnya dalam Memperkenalkan Delta Lake Time Travel untuk Data Lakes Skala Besar. |
Membuka Format | Apache Parquet adalah garis besar untuk Delta Lake, memungkinkan Anda memanfaatkan skema kompresi dan enkode efisien asli milik format tersebut. |
Kumpulan Batch dan Sumber Streaming dan Sink | Tabel Delta Lake adalah tabel batch, serta sumber streaming dan sink. Penyerapan data streaming, riwayat penimbunan batch, dan kueri interaktif semua hanya bekerja di luar kotak. |
Menegakan Skema | Penegakan skema membantu memastikan bahwa jenis data benar dan kolom yang diperlukan ada, mencegah data buruk menyebabkan inkonsistensi data. Untuk informasi selengkapnya, lihat Menyelam ke Delta Lake: Penegakan Skema & Evolusi |
Evolusi Skema | Delta Lake memungkinkan Anda membuat perubahan pada skema tabel yang dapat diterapkan secara otomatis, tanpa harus menulis DDL migrasi. Untuk informasi selengkapnya, lihat Menyelam ke Delta Lake: Penegakan Skema & Evolusi |
Riwayat Audit | Log transaksi Delta Lake mencatat detail setiap perubahan yang dilakukan pada data, menyediakan jejak audit penuh terkait perubahan. |
Pembaruan dan Penghapusan | Delta Lake mendukung Api Scala / Java / Python dan SQL untuk berbagai fungsionalitas. Dukungan untuk operasi penggabungan, pembaruan, dan penghapusan membantu Anda memenuhi persyaratan kepatuhan. Untuk informasi selengkapnya, lihat Mengumumkan Rilis Delta Lake 0.6.1, Mengumumkan Rilis Delta Lake 0.7, dan Upsert dan Delete yang Sederhana dan Andal di Tabel Delta Lake menggunakan API Python, yang mencakup cuplikan kode untuk menggabungkan, memperbarui, dan menghapus perintah DML. |
100 persen kompatibel dengan Apache Spark API | Pengembang dapat menggunakan Delta Lake dengan saluran data yang ada dengan perubahan minimal karena sepenuhnya kompatibel dengan implementasi Spark yang ada. |
Untuk dokumentasi lengkap, lihat Halaman Dokumentasi Delta Lake
Untuk informasi selengkapnya, lihat Proyek Delta Lake.