Menjalankan pembaruan pada alur Delta Live Tables
Artikel ini menjelaskan apa itu pembaruan alur Delta Live Tables dan cara menjalankannya.
Setelah Anda membuat alur dan siap menjalankannya, Anda memulai pembaruan. Pembaruan alur melakukan hal berikut:
- Memulai kluster dengan konfigurasi yang benar.
- Menemukan semua tabel dan tampilan yang ditentukan dan memeriksa kesalahan analisis apa pun seperti nama kolom yang tidak valid, dependensi yang hilang, dan kesalahan sintaksis.
- Membuat atau memperbarui semua tabel dan tampilan dengan data terbaru yang tersedia.
Dengan menggunakan pembaruan validasi, Anda dapat memeriksa masalah dalam kode sumber alur tanpa menunggu tabel dibuat atau diperbarui. Fitur ini berguna saat mengembangkan atau menguji alur karena memungkinkan Anda untuk dengan cepat menemukan dan memperbaiki kesalahan dalam alur Anda, seperti nama tabel atau kolom yang salah.
Untuk mempelajari cara membuat alur, lihat Tutorial: Menjalankan alur Delta Live Tables pertama Anda.
Memulai eksekusi alur
Azure Databricks memiliki beberapa opsi untuk memulai pembaruan alur, termasuk yang berikut ini:
- Di UI Tabel Langsung Delta, Anda memiliki opsi berikut:
- Klik tombol pada halaman detail alur.
- Dari daftar alur, klik di kolom Tindakan .
- Untuk memulai pembaruan di buku catatan, klik Mulai Tabel > Langsung Delta di toolbar buku catatan. Lihat Membuka atau menjalankan alur Tabel Langsung Delta dari buku catatan.
- Anda dapat memicu alur secara terprogram menggunakan API atau CLI. Lihat _.
- Anda dapat menjadwalkan alur sebagai pekerjaan menggunakan UI Tabel Langsung Delta atau antarmuka pengguna pekerjaan. Lihat Jadwalkan alur.
Catatan
Perilaku default untuk pembaruan alur yang dipicu secara manual menggunakan salah satu metode ini adalah untuk me-refresh semua.
Cara Tabel Langsung Delta memperbarui tabel dan tampilan
Tabel dan tampilan diperbarui, dan bagaimana tabel dan tampilan tersebut diperbarui, tergantung pada jenis pembaruan:
- Refresh semua: Semua tabel diperbarui untuk mencerminkan status sumber data inputnya saat ini. Untuk tabel streaming, baris baru ditambahkan ke tabel.
- Refresh penuh semua: Semua tabel diperbarui untuk mencerminkan status sumber data inputnya saat ini. Untuk tabel streaming, Tabel Langsung Delta mencoba menghapus semua data dari setiap tabel lalu memuat semua data dari sumber streaming.
- Pilihan refresh: Perilaku
refresh selection
identik denganrefresh all
tetapi memungkinkan Anda untuk me-refresh hanya tabel yang dipilih. Tabel yang dipilih diperbarui untuk mencerminkan status sumber data inputnya saat ini. Untuk tabel Streaming, baris baru ditambahkan ke tabel. - Pilihan refresh penuh: Perilaku
full refresh selection
identik denganfull refresh all
tetapi memungkinkan Anda melakukan refresh penuh hanya tabel yang dipilih. Tabel yang dipilih diperbarui untuk mencerminkan status sumber data inputnya saat ini. Untuk tabel Streaming, Tabel Langsung Delta mencoba menghapus semua data dari setiap tabel lalu memuat semua data dari sumber streaming.
Untuk tampilan materialisasi yang ada, pembaruan memiliki perilaku yang sama dengan SQL REFRESH
pada tampilan materialisasi. Untuk tampilan materialisasi baru, perilakunya sama dengan operasi SQL CREATE
.
Memulai pembaruan alur untuk tabel yang dipilih
Anda dapat secara opsional memproses ulang data hanya untuk tabel yang dipilih di alur Anda. Misalnya, selama pengembangan, Anda hanya mengubah satu tabel dan ingin mengurangi waktu pengujian, atau pembaruan alur gagal dan Anda hanya ingin me-refresh tabel yang gagal.
Catatan
Anda dapat menggunakan refresh selektif hanya dengan alur yang dipicu.
Untuk memulai pembaruan yang hanya me-refresh tabel yang dipilih, pada halaman Detail alur :
Klik Pilih tabel untuk refresh. Dialog Pilih tabel untuk refresh muncul.
Jika Anda tidak melihat tombol Pilih tabel untuk refresh , konfirmasikan bahwa halaman Detail alur menampilkan pembaruan terbaru dan pembaruan selesai. Jika DAG tidak ditampilkan untuk pembaruan terbaru, misalnya, karena pembaruan gagal, tombol Pilih tabel untuk refresh tidak ditampilkan.
Untuk memilih tabel yang akan di-refresh, klik setiap tabel. Tabel yang dipilih disorot dan diberi label. Untuk menghapus tabel dari pembaruan, klik tabel lagi.
Klik Refresh pilihan.
Catatan
Tombol Refresh pilihan menampilkan jumlah tabel terpilih dalam tanda kurung.
Untuk memproses ulang data yang sudah diserap untuk tabel yang dipilih, klik di samping tombol Pilihan refresh dan klik pilihan Refresh Penuh.
Memulai pembaruan alur untuk tabel yang gagal
Jika pembaruan alur gagal karena kesalahan dalam satu atau beberapa tabel dalam grafik alur, Anda dapat memulai pembaruan hanya pada tabel yang gagal dan dependensi downstream apa pun.
Catatan
Tabel yang dikecualikan tidak di-refresh, meskipun bergantung pada tabel yang gagal.
Untuk memperbarui tabel yang gagal, pada halaman Detail alur, klik Refresh tabel yang gagal.
Untuk memperbarui hanya tabel gagal yang dipilih:
Klik di samping tombol Refresh tabel yang gagal dan klik Pilih tabel untuk refresh. Dialog Pilih tabel untuk refresh muncul.
Untuk memilih tabel yang akan di-refresh, klik setiap tabel. Tabel yang dipilih disorot dan diberi label. Untuk menghapus tabel dari pembaruan, klik tabel lagi.
Klik Refresh pilihan.
Catatan
Tombol Refresh pilihan menampilkan jumlah tabel terpilih dalam tanda kurung.
Untuk memproses ulang data yang sudah diserap untuk tabel yang dipilih, klik di samping tombol Pilihan refresh dan klik pilihan Refresh Penuh.
Periksa alur untuk kesalahan tanpa menunggu tabel diperbarui
Penting
Fitur pembaruan Tabel Validate
Langsung Delta ada di Pratinjau Umum.
Untuk memeriksa apakah kode sumber alur valid tanpa menjalankan pembaruan penuh, gunakan Validasi. Pembaruan Validate
menyelesaikan definisi himpunan data dan alur yang ditentukan dalam alur tetapi tidak mewujudkan atau menerbitkan himpunan data apa pun. Kesalahan yang ditemukan selama validasi, seperti nama tabel atau kolom yang salah, dilaporkan di UI.
Untuk menjalankan Validate
pembaruan, klik halaman detail alur di samping Mulai dan klik Validasi.
Validate
Setelah pembaruan selesai, log peristiwa menunjukkan peristiwa yang hanya terkait dengan Validate
pembaruan, dan tidak ada metrik yang ditampilkan di DAG. Jika kesalahan ditemukan, detail tersedia di log peristiwa.
Anda hanya dapat melihat hasil untuk pembaruan terbaru Validate
. Validate
Jika pembaruan adalah pembaruan yang terakhir dijalankan, Anda dapat melihat hasilnya dengan memilihnya dalam riwayat pembaruan. Jika pembaruan lain dijalankan setelah Validate
pembaruan, hasilnya tidak lagi tersedia di UI.
Cara memilih batas alur
Alur Tabel Langsung Delta dapat memproses pembaruan ke satu tabel, banyak tabel dengan hubungan dependen, banyak tabel tanpa hubungan, atau beberapa alur tabel independen dengan hubungan dependen. Bagian ini berisi pertimbangan untuk membantu menentukan cara memecah alur Anda.
Alur Tabel Langsung Delta yang lebih besar memiliki beberapa manfaat. Manfaatnya meliputi:
- Lebih efisien menggunakan sumber daya kluster.
- Kurangi jumlah alur di ruang kerja Anda.
- Mengurangi kompleksitas orkestrasi alur kerja.
Beberapa rekomendasi umum tentang bagaimana alur pemrosesan harus dipisahkan termasuk yang berikut ini:
- Pisahkan fungsionalitas pada batas tim. Misalnya, tim data Anda mungkin mempertahankan alur untuk mengubah data sementara analis data Anda mempertahankan alur yang menganalisis data yang diubah.
- Pisahkan fungsionalitas pada batas khusus aplikasi untuk mengurangi konektor dan memfasilitasi penggunaan kembali fungsionalitas umum.
Mode pengembangan dan produksi
Anda dapat mengoptimalkan eksekusi alur dengan beralih antara mode pengembangan dan produksi. Gunakan tombol di UI Alur untuk beralih di antara kedua mode ini. Secara default, alur berjalan dalam mode pengembangan.
Saat Anda menjalankan alur dalam mode pengembangan, sistem Tabel Langsung Delta melakukan hal berikut:
- Menggunakan kembali kluster untuk menghindari overhead mulai ulang. Secara default, kluster berjalan selama dua jam saat mode pengembangan diaktifkan. Anda dapat mengubah ini dengan
pipelines.clusterShutdown.delay
pengaturan di alur Konfigurasi komputasi untuk Tabel Langsung Delta. - Menonaktifkan percobaan kembali alur sehingga Anda dapat segera mendeteksi dan memperbaiki kesalahan.
Dalam mode produksi, sistem Tabel Langsung Delta melakukan hal berikut:
- Memulai ulang kluster untuk kesalahan tertentu yang dapat dipulihkan, termasuk kebocoran memori dan kredensial yang usang.
- Coba lagi eksekusi jika terjadi kesalahan tertentu, seperti kegagalan untuk memulai kluster.
Catatan
Beralih antara mode pengembangan dan produksi hanya akan mengontrol perilaku eksekusi kluster dan alur. Lokasi penyimpanan dan skema target dalam katalog untuk tabel penerbitan harus dikonfigurasi sebagai bagian dari pengaturan alur dan tidak terpengaruh saat beralih antar mode.
Menjadwalkan alur
Anda dapat memulai alur yang dipicu secara manual atau menjalankan alur sesuai jadwal dengan pekerjaan Azure Databricks. Anda dapat membuat dan menjadwalkan pekerjaan dengan satu tugas alur langsung di UI Delta Live Tables atau menambahkan tugas alur ke alur kerja multi-tugas di UI pekerjaan. Lihat Tugas alur Delta Live Tables untuk pekerjaan.
Untuk membuat pekerjaan tugas tunggal dan jadwal untuk pekerjaan di UI Delta Live Tables:
- Klik Jadwal > Tambahkan jadwal. Jika alur disertakan dalam satu atau beberapa pekerjaan terjadwal, tombol Jadwal diperbarui untuk menampilkan jumlah jadwal yang ada, misalnya, Jadwal (5).
- Masukkan nama untuk pekerjaan di bidang Nama pekerjaan.
- Atur Jadwal ke Dijadwalkan.
- Tentukan periode, waktu mulai, dan zona waktu.
- Konfigurasikan satu atau beberapa alamat email untuk menerima peringatan tentang mulai, keberhasilan, atau kegagalan alur.
- Klik Buat.