Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini adalah pengantar untuk teknologi yang secara kolektif diberi merek Delta pada Azure Databricks. Delta mengacu pada teknologi yang terkait dengan atau dalam proyek sumber terbuka Delta Lake.
Artikel ini menjawab:
- Apa saja teknologi Delta di Azure Databricks?
- Apa yang dilakukan? Atau untuk apa mereka digunakan?
- Bagaimana hubungan dan perbedaan mereka satu sama lain?
Untuk apa produk Delta digunakan?
Delta adalah istilah yang diperkenalkan dengan Delta Lake, dasar untuk menyimpan data dan tabel di Databricks Lakehouse. Delta Lake dirancang sebagai sistem manajemen data terpadu untuk menangani big data transaksional, baik dalam waktu nyata maupun batch, dengan memperluas file data Parquet menggunakan log transaksi berbasis file untuk transaksi ACID dan penanganan metadata yang dapat diskalakan.
Delta Lake: Pengelolaan data sistem operasi untuk lakehouse
Delta Lake adalah lapisan penyimpanan sumber terbuka yang membawa keandalan ke data lake dengan menambahkan lapisan penyimpanan transaksional di atas data yang disimpan di penyimpanan cloud (di AWS S3, Azure Storage, dan GCS). Ini memungkinkan transaksi ACID, penerapan versi data, dan kemampuan pemutaran kembali. Ini memungkinkan Anda untuk menangani data batch dan streaming dengan cara terpadu.
Tabel Delta dibangun di atas lapisan penyimpanan ini dan menyediakan abstraksi tabel, sehingga mudah untuk bekerja dengan data terstruktur skala besar menggunakan SQL dan DATAFrame API.
Tabel Delta: Arsitektur tabel data default
Tabel Delta adalah format tabel data default di Azure Databricks dan merupakan fitur kerangka kerja data Delta Lake sumber terbuka. Tabel Delta biasanya digunakan untuk data lake, di mana data diserap melalui streaming atau dalam batch besar.
Lihat:
- Panduan cepat Delta Lake: Membuat tabel
- Memperbarui dan memodifikasi tabel Delta Lake.
- Kelas DeltaTable: Kelas utama untuk berinteraksi secara terprogram dengan tabel Delta.
Alur Deklaratif Lakeflow: Alur data
Alur Deklaratif Lakeflow mengelola aliran data antara banyak tabel Delta, sehingga menyederhanakan pekerjaan teknisi data pada pengembangan dan manajemen ETL. Pipa adalah unit utama eksekusi untuk Pipa Deklaratif Lakeflow. Lakeflow Declarative Pipelines menawarkan pengembangan alur deklaratif, peningkatan keandalan data, dan operasi produksi skala cloud. Pengguna dapat melakukan operasi batch dan streaming pada tabel yang sama dan data segera tersedia untuk kueri. Anda menentukan transformasi yang akan dilakukan pada data Anda, dan Lakeflow Declarative Pipelines mengelola orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan. Penskalaan otomatis yang ditingkatkan pada Lakeflow Declarative Pipelines mampu mengelola beban kerja streaming yang bersifat berubah-ubah dan sulit diprediksi.
Lihat tutorial Alur Deklaratif Lakeflow.
Tabel Delta vs. Alur Deklaratif Lakeflow
Tabel Delta adalah cara untuk menyimpan data dalam tabel, sedangkan Lakeflow Declarative Pipelines memungkinkan Anda untuk menjelaskan bagaimana data mengalir di antara tabel ini secara deklaratif. Lakeflow Declarative Pipelines adalah kerangka kerja deklaratif yang mengelola banyak tabel delta, dengan membuatnya dan selalu memperbaruinya. Singkatnya, tabel Delta adalah arsitektur tabel data sementara Lakeflow Declarative Pipelines adalah kerangka kerja alur data.
Delta: Sumber terbuka atau kepemilikan?
Kekuatan platform Azure Databricks adalah bahwa platform tersebut tidak mengunci pelanggan ke dalam alat eksklusif: Sebagian besar teknologi dimanfaatkan melalui proyek sumber terbuka yang didukung oleh Azure Databricks.
Proyek DELTA OSS adalah contoh:
- Proyek Delta Lake: Penyimpanan sumber terbuka untuk lakehouse.
- Delta Sharing protocol: Protokol terbuka untuk berbagi data yang aman.
Lakeflow Declarative Pipelines adalah kerangka kerja milik di Azure Databricks.
Apa saja hal-hal Delta lain di Azure Databricks?
Di bawah ini adalah deskripsi fitur lain yang menyertakan Delta dalam namanya.
Berbagi Delta
Standar terbuka untuk berbagi data yang aman, Delta Sharing memungkinkan berbagi data antar organisasi tanpa memandang platform komputasi yang digunakan.
Mesin Delta
Pengoptimal kueri untuk big data yang menggunakan teknologi Delta Lake sumber terbuka yang disertakan dalam Databricks. Mesin Delta mengoptimalkan performa operasi Spark SQL, Databricks SQL, dan DataFrame dengan mendorong komputasi ke data.
Log transaksi Delta Lake (AKA DeltaLogs)
Sumber kebenaran tunggal yang melacak semua perubahan yang dilakukan pengguna pada tabel dan mekanisme di mana Delta Lake menjamin atomisitas. Lihat protokol log transaksi Delta di GitHub.
Log transaksi adalah kunci untuk memahami Delta Lake, karena ini adalah benang merah yang menghubungkan banyak fitur terpentingnya.
- Transaksi ACID
- Penanganan metadata yang dapat diskalakan
- Perjalanan waktu
- Dan banyak lagi.