Bagikan melalui


Apa saja hal Delta di Azure Databricks?

Artikel ini adalah pengantar teknologi delta bermerek kolektif di Azure Databricks. Delta mengacu pada teknologi yang terkait dengan atau dalam proyek Delta Lake sumber terbuka.

Artikel ini menjawab:

  • Apa saja teknologi Delta di Azure Databricks?
  • Apa yang dilakukan? Atau untuk apa mereka digunakan?
  • Bagaimana hubungan mereka dengan dan perbedaan satu sama lain?

Untuk apa hal-hal Delta digunakan?

Delta adalah istilah yang diperkenalkan dengan Delta Lake, fondasi untuk menyimpan data dan tabel di databricks lakehouse. Delta Lake dikandung sebagai sistem manajemen data terpadu untuk menangani big data transaksional real time dan batch, dengan memperluas file data Parquet dengan log transaksi berbasis file untuk transaksi ACID dan penanganan metadata yang dapat diskalakan.

Delta Lake: Manajemen data OS untuk lakehouse

Delta Lake adalah lapisan penyimpanan sumber terbuka yang membawa keandalan ke data lake dengan menambahkan lapisan penyimpanan transaksional di atas data yang disimpan di penyimpanan cloud (di AWS S3, Azure Storage, dan GCS). Ini memungkinkan transaksi ACID, penerapan versi data, dan kemampuan pemutaran kembali. Ini memungkinkan Anda untuk menangani data batch dan streaming dengan cara terpadu.

Tabel Delta dibangun di atas lapisan penyimpanan ini dan menyediakan abstraksi tabel, sehingga mudah untuk bekerja dengan data terstruktur skala besar menggunakan SQL dan DATAFrame API.

Tabel Delta: Arsitektur tabel data default

Tabel Delta adalah format tabel data default di Azure Databricks dan merupakan fitur kerangka kerja data Delta Lake sumber terbuka. Tabel Delta biasanya digunakan untuk data lake, di mana data diserap melalui streaming atau dalam batch besar.

Lihat:

Tabel Langsung Delta: Alur data

Tabel Langsung Delta mengelola aliran data antara banyak tabel Delta, sehingga menyederhanakan pekerjaan teknisi data pada pengembangan dan manajemen ETL. Alur adalah unit utama eksekusi untuk Tabel Langsung Delta. Tabel Langsung Delta menawarkan pengembangan alur deklaratif, peningkatan keandalan data, dan operasi produksi skala cloud. Pengguna dapat melakukan operasi batch dan streaming pada tabel yang sama dan data segera tersedia untuk kueri. Anda menentukan transformasi yang akan dilakukan pada data, dan Delta Live Tables mengelola orkestrasi tugas, pengelolaan kluster, pemantauan, kualitas data, dan penanganan kesalahan. Penskalaan Otomatis Yang Ditingkatkan Tabel Langsung Delta dapat menangani beban kerja streaming yang lonjakan dan tidak dapat diprediksi.

Lihat tutorial Delta Live Tables.

Tabel Delta vs. Tabel Langsung Delta

Tabel Delta adalah cara untuk menyimpan data dalam tabel, sedangkan Delta Live Tables memungkinkan Anda menjelaskan bagaimana data mengalir di antara tabel ini secara deklaratif. Tabel Langsung Delta adalah kerangka kerja deklaratif yang mengelola banyak tabel delta, dengan membuatnya dan membuatnya tetap terbarui. Singkatnya, tabel Delta adalah arsitektur tabel data sementara Delta Live Tables adalah kerangka kerja alur data.

Delta: Sumber terbuka atau kepemilikan?

Kekuatan platform Azure Databricks adalah bahwa platform tersebut tidak mengunci pelanggan ke dalam alat kepemilikan: Sebagian besar teknologi didukung oleh proyek sumber terbuka, yang dikontribusikan Oleh Azure Databricks.

Proyek DELTA OSS adalah contoh:

  • Proyek Delta Lake: Penyimpanan sumber terbuka untuk lakehouse.
  • Protokol Berbagi Delta: Buka protokol untuk berbagi data yang aman.

Tabel Langsung Delta adalah kerangka kerja kepemilikan di Azure Databricks.

Apa saja hal Delta lainnya di Azure Databricks?

Di bawah ini adalah deskripsi fitur lain yang menyertakan Delta dalam namanya.

Berbagi Delta

Standar terbuka untuk berbagi data yang aman, Berbagi Delta memungkinkan berbagi data antar organisasi terlepas dari platform komputasi mereka.

Mesin Delta

Pengoptimal kueri untuk big data yang menggunakan teknologi Delta Lake sumber terbuka yang disertakan dalam Databricks. Mesin Delta mengoptimalkan performa operasi Spark SQL, Databricks SQL, dan DataFrame dengan mendorong komputasi ke data.

Log transaksi Delta Lake (AKA DeltaLogs)

Satu sumber kebenaran yang melacak semua perubahan yang dilakukan pengguna ke tabel dan mekanisme di mana Delta Lake menjamin atomitas. Lihat protokol log transaksi Delta di GitHub.

Log transaksi adalah kunci untuk memahami Delta Lake, karena ini adalah utas umum yang berjalan melalui banyak fitur terpentingnya:

  • Transaksi ACID
  • Penanganan metadata yang dapat diskalakan
  • Perjalanan waktu
  • Dan banyak lagi.