Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menyediakan referensi untuk spesifikasi pengaturan JSON alur dan properti tabel di Lakeflow Spark Declarative Pipelines. Untuk detail selengkapnya tentang menggunakan berbagai properti dan konfigurasi ini, lihat artikel berikut ini:
Konfigurasi alur
idJenis:
stringPengidentifikasi unik global untuk pipa ini. Pengidentifikasi ditetapkan oleh sistem dan tidak dapat diubah.
nameJenis:
stringNama yang mudah digunakan untuk alur ini. Nama dapat digunakan untuk mengidentifikasi pekerjaan pipeline di antarmuka pengguna.
configurationJenis:
objectDaftar pengaturan opsional untuk ditambahkan ke konfigurasi Spark dari cluster yang akan menjalankan pipeline. Pengaturan ini dibaca oleh runtime Alur Deklaratif Lakeflow Spark dan tersedia untuk kueri alur melalui konfigurasi Spark.
Elemen harus diformat sebagai pasangan
key:value.librariesJenis:
array of objectsSekumpulan file kode yang berisi kode pipeline dan artefak yang diperlukan.
clustersJenis:
array of objectsSekumpulan spesifikasi untuk kluster menjalankan jalur pemrosesan.
Jika tidak ditentukan, pipeline akan memilih konfigurasi kluster default secara otomatis untuk alur tersebut.
developmentJenis:
booleanPenanda yang menunjukkan apakah akan menjalankan pipeline dalam mode
developmentatauproduction.Nilai defaultnya adalah
truenotificationsJenis:
array of objectsArray spesifikasi opsional untuk pemberitahuan email saat pembaruan pipeline selesai, gagal dengan kesalahan yang dapat diulang, gagal dengan kesalahan yang tidak dapat diulang, atau alur kerja gagal.
continuousJenis:
booleanBendera yang menunjukkan apakah akan menjalankan pipeline secara terus-menerus.
Nilai defaultnya adalah
false.catalogJenis:
stringNama katalog default untuk pipeline, di mana semua himpunan data dan metadata untuk pipeline tersebut diterbitkan. Mengatur nilai ini akan mengaktifkan Unity Catalog untuk pipeline.
Jika dibiarkan tidak diatur, alur akan menerbitkan ke metastore Hive lama menggunakan lokasi yang ditentukan dalam
storage.Dalam mode penerbitan lama, menentukan katalog yang berisi skema target di mana semua himpunan data dari alur kerja saat ini diterbitkan. Lihat skema LIVE (versi lama).
schemaJenis:
stringNama skema default untuk pipa, di mana semua himpunan data dan metadata dalam skema default pipa diterbitkan secara default. Lihat Atur katalog target dan skema.
target(warisan)Jenis:
stringNama skema target tempat semua himpunan data yang ditentukan dalam alur saat ini diterbitkan.
Mengatur
targetalih-alihschemamengonfigurasi jalur untuk menggunakan mode penerbitan lama. Lihat skema LIVE (versi lama).storage(warisan)Jenis:
stringLokasi di DBFS atau penyimpanan cloud tempat data output dan metadata yang diperlukan untuk eksekusi alur disimpan. Tabel dan metadata disimpan dalam subdirektori lokasi ini.
Ketika pengaturan
storagetidak ditentukan, sistem akan default ke lokasi didbfs:/pipelines/.Pengaturan
storagetidak dapat diubah setelah pipa saluran dibuat.channelJenis:
stringVersi runtime Alur Deklaratif Lakeflow Spark yang digunakan. Nilai yang didukung adalah:
-
previewuntuk menguji alur Anda dengan perubahan yang akan datang pada versi runtime. -
currentuntuk menggunakan versi runtime saat ini.
Bidang
channelbersifat opsional. Nilai defaultnya adalahcurrent. Databricks merekomendasikan penggunaan versi runtime saat ini untuk beban kerja produksi.-
editionKetik
stringEdisi produk Lakeflow Spark Declarative Pipelines yang digunakan untuk menjalankan alur kerja. Pengaturan ini memungkinkan Anda memilih edisi produk terbaik berdasarkan persyaratan alur Anda:
-
COREuntuk menjalankan beban kerja pengambilan data streaming. -
PROuntuk menjalankan beban kerja ingestion streaming dan penangkapan perubahan data (CDC). -
ADVANCEDuntuk menjalankan beban kerja penyerapan streaming, beban kerja CDC, dan beban kerja yang memerlukan harapan untuk memberlakukan batasan kualitas data.
Bidang
editionbersifat opsional. Nilai defaultnya adalahADVANCED.-
photonJenis:
booleanSebuah indikator yang menunjukkan apakah akan menggunakan Apa itu Photon? untuk menjalankan pipeline. Photon adalah mesin Spark berperforma tinggi Azure Databricks. Saluran yang diaktifkan oleh Photon dikenai tarif yang berbeda dari saluran non-Photon.
Bidang
photonbersifat opsional. Nilai defaultnya adalahfalse.pipelines.maxFlowRetryAttemptsJenis:
intJika kegagalan yang dapat diulang terjadi selama pembaruan alur, ini adalah jumlah maksimum kali untuk mencoba kembali alur sebelum gagal memperbarui alur
Default: Dua kali percobaan ulang. Ketika terjadi kegagalan yang dapat diulang, runtime Lakeflow Spark Declarative Pipelines mencoba menjalankan aliran tiga kali, termasuk upaya pertama.
pipelines.numUpdateRetryAttemptsJenis:
intJika kegagalan yang dapat diulang terjadi selama pembaruan, jumlah maksimum untuk mencoba kembali pembaruan sebelum pembaruan gagal secara permanen adalah sebagai berikut. Upaya ulang dilakukan sebagai pembaruan penuh.
Parameter ini hanya berlaku untuk alur menggunakan perilaku coba lagi dan mulai ulang otomatis. Percobaan ulang tidak dicoba untuk pembaruan ad-hoc yang dijalankan dari editor atau saat Anda menjalankan
Validatepembaruan.Default:
- Lima untuk pipeline yang dipicu.
- Tidak terbatas untuk alur berkelanjutan.
Properti tabel alur
Selain properti tabel yang didukung oleh Delta Lake, Anda bisa mengatur properti tabel berikut ini.
pipelines.autoOptimize.zOrderColsStandar: Tidak ada
String opsional yang berisi daftar nama kolom yang dipisahkan dengan koma untuk mengurutkan tabel ini dengan z-order. Misalnya:
pipelines.autoOptimize.zOrderCols = "year,month"Databricks merekomendasikan pengklusteran cair alih-alih pemesanan Z untuk mengoptimalkan tata letak data dalam tabel alur. Lihat Menggunakan pengklusteran cair untuk tabel.
pipelines.reset.allowedStandar:
trueMengontrol apakah refresh penuh diizinkan untuk tabel ini.
pipelines.autoOptimize.managedStandar:
trueMengaktifkan atau menonaktifkan pengoptimalan terjadwal tabel ini secara otomatis.
Untuk alur yang dikelola oleh pengoptimalan prediktif, properti ini tidak digunakan.
Interval pemicu jalur kerja
Anda dapat menentukan interval pemicu alur untuk seluruh alur atau sebagai bagian dari deklarasi himpunan data. Silakan lihat Menetapkan interval pemicu untuk alur pipa berkelanjutan.
pipelines.trigger.intervalPengaturan bawaan didasarkan pada jenis alur.
- Lima detik untuk kueri streaming.
- Satu menit untuk kueri lengkap saat semua data input berasal dari sumber Delta.
- Diperlukan sepuluh menit untuk kueri lengkap ketika beberapa sumber data mungkin bukan Delta.
Nilainya adalah angka ditambah unit waktu. Berikut ini adalah unit waktu yang valid:
-
second,seconds -
minute,minutes -
hour,hours -
day,days
Anda dapat menggunakan unit tunggal atau jamak saat menentukan nilai, misalnya:
{"pipelines.trigger.interval" : "1 hour"}{"pipelines.trigger.interval" : "10 seconds"}{"pipelines.trigger.interval" : "30 second"}{"pipelines.trigger.interval" : "1 minute"}{"pipelines.trigger.interval" : "10 minutes"}{"pipelines.trigger.interval" : "10 minute"}
Atribut Kluster yang tidak dapat diatur pengguna
Karena Lakeflow Spark Declarative Pipelines (SDP) mengelola siklus hidup kluster, banyak pengaturan kluster diatur oleh sistem dan tidak dapat dikonfigurasi secara manual oleh pengguna, baik dalam konfigurasi alur atau dalam kebijakan kluster yang digunakan oleh alur. Tabel berikut mencantumkan pengaturan ini dan mengapa tidak dapat diatur secara manual.
cluster_nameSDP menetapkan nama kluster yang digunakan untuk menjalankan pembaruan alur. Nama-nama ini tidak dapat digantikan.
data_security_modeaccess_modeNilai-nilai ini secara otomatis diatur oleh sistem.
spark_versionKluster SDP berjalan pada versi kustom Databricks Runtime yang terus diperbarui untuk menyertakan fitur terbaru. Versi Spark sudah dibundel dengan versi Databricks Runtime dan tidak dapat diubah.
autotermination_minutesKarena SDP mengelola penghentian otomatis kluster dan logika penggunaan kembali, waktu penghentian otomatis kluster tidak dapat diubah.
runtime_engineMeskipun Anda dapat mengontrol bidang ini dengan mengaktifkan Photon untuk alur Anda, Anda tidak dapat mengatur nilai ini secara langsung.
effective_spark_versionNilai ini secara otomatis diatur oleh sistem.
cluster_sourceBidang ini diatur oleh sistem dan hanya bisa dibaca.
docker_imageKarena SDP mengelola siklus hidup kluster, Anda tidak dapat menggunakan kontainer kustom dengan kluster alur.
workload_typeNilai ini diatur oleh sistem dan tidak dapat digantikan.