Referensi properti Tabel Langsung Delta

Artikel ini menyediakan referensi untuk spesifikasi pengaturan JSON Tabel Langsung Delta dan properti tabel di Azure Databricks. Untuk detail selengkapnya tentang menggunakan berbagai properti dan konfigurasi ini, lihat artikel berikut ini:

Konfigurasi alur Tabel Langsung Delta

Bidang
id

Jenis: string

Pengidentifikasi unik global untuk alur ini. Pengidentifikasi ditetapkan oleh sistem dan tidak dapat diubah.
name

Jenis: string

Nama yang mudah digunakan untuk alur ini. Nama dapat digunakan untuk mengidentifikasi pekerjaan alur di UI.
storage

Jenis: string

Lokasi pada DBFS atau penyimpanan cloud tempat data dan metadata keluaran yang diperlukan untuk eksekusi alur disimpan. Tabel dan metadata disimpan di subdirektori lokasi ini.

Ketika pengaturan storage tidak ditentukan, sistem akan mendefault ke lokasi di dbfs:/pipelines/.

Pengaturan storage tidak dapat diubah setelah alur dibuat.
configuration

Jenis: object

Daftar pengaturan opsional yang ditambahkan ke konfigurasi Spark dari kluster yang akan menjalankan alur. Pengaturan ini dibaca oleh runtime Delta Live Tables dan tersedia untuk alur kueri melalui konfigurasi Spark.

Elemen harus diformat sebagai pasangan key:value.
libraries

Jenis: array of objects

Larik notebook yang berisi kode alur dan artefak yang diperlukan.
clusters

Jenis: array of objects

Serangkaian spesifikasi untuk kluster untuk menjalankan alur.

Jika ini tidak ditentukan, alur akan secara otomatis memilih konfigurasi kluster default untuk alur.
development

Jenis: boolean

Bendera yang menunjukkan apakah akan menjalankan alur di
development atau production mode.

Nilai defaultnya adalah true
notifications

Jenis: array of objects

Array spesifikasi opsional untuk pemberitahuan email saat pembaruan alur selesai, gagal dengan kesalahan yang dapat diulang, gagal dengan kesalahan yang tidak dapat diulang, atau alur gagal.
continuous

Jenis: boolean

Bendera yang menunjukkan apakah akan menjalankan alur secara berkelanjutan.

Nilai defaultnya adalah false.
target

Jenis: string

Nama database untuk data keluaran alur yang bertahan. Mengonfigurasi pengaturan target memungkinkan Anda untuk melihat dan mengkueri data keluaran alur dari UI Azure Databricks.
channel

Jenis: string

Versi runtime Delta Live Tables yang akan digunakan. Nilai yang didukung adalah:

* preview untuk menguji alur Anda dengan perubahan terhadap versi runtime mendatang.
* current untuk menggunakan versi runtime saat ini.

Bidang channel bersifat opsional. Nilai defaultnya adalah
current. Databricks merekomendasikan untuk menggunakan versi runtime saat ini untuk beban kerja produksi.
edition

Ketikkan string

Edisi produk Delta Live Tables untuk menjalankan alur. Pengaturan ini memungkinkan Anda memilih edisi produk terbaik berdasarkan kebutuhan alur Anda:

* CORE untuk menjalankan beban kerja penyerapan streaming.
* PRO untuk menjalankan beban kerja streaming ingest dan change data capture (CDC).
* ADVANCED untuk menjalankan beban kerja penyerapan streaming, beban kerja CDC, dan beban kerja yang memerlukan ekspektasi Delta Live Tables untuk memberlakukan pembatasan kualitas data.

Bidang edition bersifat opsional. Nilai defaultnya adalah
ADVANCED.
photon

Jenis: boolean

Bendera yang menunjukkan apakah akan menggunakan Apa itu Photon? untuk menjalankan alur. Photon adalah mesin Spark berperforma tinggi Azure Databricks. Alur yang diaktifkan foton ditagih dengan tarif yang berbeda dari alur non-Foton.

Bidang photon bersifat opsional. Nilai defaultnya adalah false.
pipelines.maxFlowRetryAttempts

Jenis: int

Jumlah maksimum upaya untuk mencoba kembali alur sebelum gagal memperbarui alur ketika kegagalan yang dapat dicoba kembali terjadi.

Nilai defaultnya adalah dua. Secara default, ketika kegagalan yang dapat dicoba kembali terjadi, runtime Delta Live Tables mencoba menjalankan alur tiga kali termasuk upaya asli.
pipelines.numUpdateRetryAttempts

Jenis: int

Jumlah maksimum upaya untuk mencoba kembali pembaruan sebelum gagal memperbarui ketika kegagalan yang dapat dicoba kembali terjadi. Coba lagi dijalankan sebagai pembaruan penuh.

Defaultnya adalah lima. Parameter ini hanya berlaku untuk pembaruan yang dipicu yang dijalankan dalam mode produksi. Tidak ada coba lagi saat alur Anda berjalan dalam mode pengembangan.

Properti tabel Tabel Langsung Delta

Selain properti tabel yang didukung oleh Delta Lake, Anda dapat mengatur properti tabel berikut.

Properti Tabel
pipelines.autoOptimize.managed

Default: true

Mengaktifkan atau menonaktifkan pengoptimalan terjadwal tabel ini secara otomatis.
pipelines.autoOptimize.zOrderCols

Default: Tidak Ada

String opsional yang berisi daftar nama kolom yang dipisahkan koma untuk z-order tabel ini. Misalnya: pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Default: true

Mengontrol apakah refresh penuh diizinkan untuk tabel ini.

Properti tabel CDC

catatan:: Properti ini untuk mengontrol perilaku manajemen batu nisan tidak digunakan lagi dan digantikan oleh pengaturan alur. Alur yang ada atau baru harus menggunakan pengaturan alur baru. Lihat Mengontrol manajemen batu nisan untuk kueri SCD tipe 1.

Properti tabel berikut ditambahkan untuk mengontrol perilaku manajemen batu nisan untuk DELETE peristiwa saat menggunakan CDC:

Properti Tabel
pipelines.cdc.tombstoneGCThresholdInSeconds

Default: 5 menit

Atur nilai ini agar sesuai dengan interval tertinggi yang diharapkan antara data yang tidak berurutan.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Default: 60 detik

Mengontrol seberapa sering penanda diperiksa untuk pembersihan.

Lihat TERAPKAN PERUBAHAN API: Menyederhanakan perubahan pengambilan data di Tabel Langsung Delta.

Interval pemicu alur

Anda dapat menentukan interval pemicu alur untuk seluruh alur Tabel Langsung Delta atau sebagai bagian dari deklarasi himpunan data. Lihat Interval pemicu alur.

pipelines.trigger.interval
Defaultnya didasarkan pada jenis alur:

* Lima detik untuk kueri streaming.
* Satu menit untuk menyelesaikan kueri ketika semua data input berasal dari sumber Delta.
* Sepuluh menit untuk menyelesaikan kueri ketika beberapa sumber data mungkin non-Delta.

Nilai adalah angka ditambah satuan waktu. Berikut ini adalah satuan waktu yang valid:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Anda dapat menggunakan unit tunggal atau jamak saat mendefinisikan nilai, misalnya:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Atribut kluster yang tidak dapat diatur pengguna

Karena Tabel Langsung Delta mengelola siklus hidup kluster, banyak pengaturan kluster diatur oleh Tabel Langsung Delta dan tidak dapat dikonfigurasi secara manual oleh pengguna, baik dalam konfigurasi alur atau dalam kebijakan kluster yang digunakan oleh alur. Tabel berikut mencantumkan pengaturan ini dan mengapa tidak dapat diatur secara manual.

Bidang
cluster_name

Tabel Langsung Delta mengatur nama kluster yang digunakan untuk menjalankan pembaruan alur. Nama-nama ini tidak dapat ditimpa.
data_security_mode
access_mode

Nilai-nilai ini secara otomatis diatur oleh sistem.
spark_version

Kluster Delta Live Tables berjalan pada versi kustom Databricks Runtime yang terus diperbarui untuk menyertakan fitur terbaru. Versi Spark dibundel dengan versi Databricks Runtime dan tidak dapat ditimpa.
autotermination_minutes

Karena Tabel Langsung Delta mengelola penghentian otomatis kluster dan menggunakan kembali logika, waktu penghentian otomatis kluster tidak dapat ditimpa.
runtime_engine

Meskipun Anda dapat mengontrol bidang ini dengan mengaktifkan Photon untuk alur Anda, Anda tidak dapat mengatur nilai ini secara langsung.
effective_spark_version

Nilai ini secara otomatis diatur oleh sistem.
cluster_source

Bidang ini diatur oleh sistem dan bersifat baca-saja.
docker_image

Karena Tabel Langsung Delta mengelola siklus hidup kluster, Anda tidak dapat menggunakan kontainer kustom dengan kluster alur.
workload_type

Nilai ini diatur oleh sistem dan tidak dapat ditimpa.