Bagikan melalui


Apa saja elemen Delta di Azure Databricks?

Artikel ini adalah pengantar untuk teknologi yang secara kolektif diberi merek Delta pada Azure Databricks. Delta mengacu pada teknologi yang terkait dengan atau dalam proyek sumber terbuka Delta Lake.

Artikel ini menjawab:

  • Apa saja teknologi Delta di Azure Databricks?
  • Apa yang dilakukan? Atau untuk apa mereka digunakan?
  • Bagaimana hubungan dan perbedaan mereka satu sama lain?

Untuk apa produk Delta digunakan?

Delta adalah istilah yang diperkenalkan dengan Delta Lake, dasar untuk menyimpan data dan tabel di Databricks Lakehouse. Delta Lake dirancang sebagai sistem manajemen data terpadu untuk menangani big data transaksional, baik dalam waktu nyata maupun batch, dengan memperluas file data Parquet menggunakan log transaksi berbasis file untuk transaksi ACID dan penanganan metadata yang dapat diskalakan.

Delta Lake: Pengelolaan data sistem operasi untuk lakehouse

Delta Lake adalah lapisan penyimpanan sumber terbuka yang membawa keandalan ke data lake dengan menambahkan lapisan penyimpanan transaksional di atas data yang disimpan di penyimpanan cloud (di AWS S3, Azure Storage, dan GCS). Ini memungkinkan transaksi ACID, penerapan versi data, dan kemampuan pemutaran kembali. Ini memungkinkan Anda untuk menangani data batch dan streaming dengan cara terpadu.

Tabel Delta dibangun di atas lapisan penyimpanan ini dan menyediakan abstraksi tabel, sehingga mudah untuk bekerja dengan data terstruktur skala besar menggunakan SQL dan DATAFrame API.

Tabel Delta: Arsitektur tabel data default

Tabel Delta adalah format tabel data default di Azure Databricks dan merupakan fitur kerangka kerja data Delta Lake sumber terbuka. Tabel Delta biasanya digunakan untuk data lake, di mana data diserap melalui streaming atau dalam batch besar.

Lihat:

Alur Deklaratif Lakeflow: Alur data

Alur Deklaratif Lakeflow mengelola aliran data antara banyak tabel Delta, sehingga menyederhanakan pekerjaan teknisi data pada pengembangan dan manajemen ETL. Pipa adalah unit utama eksekusi untuk Pipa Deklaratif Lakeflow. Lakeflow Declarative Pipelines menawarkan pengembangan alur deklaratif, peningkatan keandalan data, dan operasi produksi skala cloud. Pengguna dapat melakukan operasi batch dan streaming pada tabel yang sama dan data segera tersedia untuk kueri. Anda menentukan transformasi yang akan dilakukan pada data Anda, dan Lakeflow Declarative Pipelines mengelola orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan. Penskalaan otomatis yang ditingkatkan pada Lakeflow Declarative Pipelines mampu mengelola beban kerja streaming yang bersifat berubah-ubah dan sulit diprediksi.

Lihat tutorial Alur Deklaratif Lakeflow.

Tabel Delta vs. Alur Deklaratif Lakeflow

Tabel Delta adalah cara untuk menyimpan data dalam tabel, sedangkan Lakeflow Declarative Pipelines memungkinkan Anda untuk menjelaskan bagaimana data mengalir di antara tabel ini secara deklaratif. Lakeflow Declarative Pipelines adalah kerangka kerja deklaratif yang mengelola banyak tabel delta, dengan membuatnya dan selalu memperbaruinya. Singkatnya, tabel Delta adalah arsitektur tabel data sementara Lakeflow Declarative Pipelines adalah kerangka kerja alur data.

Delta: Sumber terbuka atau kepemilikan?

Kekuatan platform Azure Databricks adalah bahwa platform tersebut tidak mengunci pelanggan ke dalam alat eksklusif: Sebagian besar teknologi dimanfaatkan melalui proyek sumber terbuka yang didukung oleh Azure Databricks.

Proyek DELTA OSS adalah contoh:

Lakeflow Declarative Pipelines adalah kerangka kerja milik di Azure Databricks.

Apa saja hal-hal Delta lain di Azure Databricks?

Di bawah ini adalah deskripsi fitur lain yang menyertakan Delta dalam namanya.

Berbagi Delta

Standar terbuka untuk berbagi data yang aman, Delta Sharing memungkinkan berbagi data antar organisasi tanpa memandang platform komputasi yang digunakan.

Mesin Delta

Pengoptimal kueri untuk big data yang menggunakan teknologi Delta Lake sumber terbuka yang disertakan dalam Databricks. Mesin Delta mengoptimalkan performa operasi Spark SQL, Databricks SQL, dan DataFrame dengan mendorong komputasi ke data.

Log transaksi Delta Lake (AKA DeltaLogs)

Sumber kebenaran tunggal yang melacak semua perubahan yang dilakukan pengguna pada tabel dan mekanisme di mana Delta Lake menjamin atomisitas. Lihat protokol log transaksi Delta di GitHub.

Log transaksi adalah kunci untuk memahami Delta Lake, karena ini adalah benang merah yang menghubungkan banyak fitur terpentingnya.

  • Transaksi ACID
  • Penanganan metadata yang dapat diskalakan
  • Perjalanan waktu
  • Dan banyak lagi.