Membuat alur yang dikelola sepenuhnya menggunakan Tabel Langsung Delta dengan komputasi tanpa server

Artikel
08/16/2024

Catatan

Untuk informasi tentang kelayakan dan pengaktifan untuk alur DLT tanpa server, lihat Mengaktifkan komputasi tanpa server.
Jika Anda perlu menggunakan koneksi Azure Private Link dengan alur DLT tanpa server Anda, hubungi perwakilan Databricks Anda.

Artikel ini menjelaskan cara menggunakan Tabel Langsung Delta dengan komputasi tanpa server untuk menjalankan pembaruan alur Anda dengan komputasi yang dikelola sepenuhnya, dan merinci fitur komputasi tanpa server yang meningkatkan performa alur Anda.

Gunakan alur DLT tanpa server untuk menjalankan alur Tabel Langsung Delta Anda tanpa mengonfigurasi dan menyebarkan infrastruktur. Dengan alur DLT tanpa server, Anda fokus pada penerapan penyerapan dan transformasi data, dan Azure Databricks mengelola sumber daya komputasi secara efisien, termasuk mengoptimalkan dan menskalakan komputasi untuk beban kerja Anda. Alur DLT tanpa server mencakup kemampuan berikut:

Komputasi yang dioptimalkan secara otomatis yang hanya berjalan saat diperlukan.
Sumber daya komputasi yang andal dan dikelola sepenuhnya.
Pembaruan himpunan data yang lebih efisien dengan refresh bertahap untuk tampilan materialisasi.
Startup yang lebih cepat untuk sumber daya komputasi yang menjalankan pembaruan alur.

Alur DLT tanpa server juga memiliki fitur berikut untuk mengoptimalkan performa pemrosesan alur, mendukung penggunaan sumber daya komputasi yang lebih efisien, dan membantu menurunkan biaya menjalankan alur Anda:

Aliran alur: Untuk meningkatkan pemanfaatan, throughput, dan latensi untuk beban kerja data streaming seperti penyerapan data, mikrobatche disalurkan. Dengan kata lain, alih-alih menjalankan mikrobatche secara berurutan seperti Spark Structured Streaming standar, alur DLT tanpa server berjalan secara bersamaan, yang mengarah ke pemanfaatan sumber daya komputasi yang lebih baik. Stream pipelining diaktifkan secara default dalam alur DLT tanpa server.
Penskalaan otomatis vertikal: Alur DLT tanpa server ditambahkan ke penskalaan otomatis horizontal yang disediakan oleh Penskalaan Otomatis yang Ditingkatkan Databricks dengan secara otomatis mengalokasikan jenis instans yang paling hemat biaya yang dapat menjalankan alur Tabel Langsung Delta Anda tanpa gagal karena kesalahan kehabisan memori. Lihat Apa itu autoscaling vertikal?

Karena izin pembuatan kluster tidak diperlukan, semua pengguna ruang kerja dapat menggunakan alur DLT tanpa server untuk menjalankan alur kerja mereka.

Persyaratan

Untuk menggunakan alur DLT tanpa server, ruang kerja Anda harus mengaktifkan Katalog Unity.
Ruang kerja Anda harus berada di wilayah tanpa server yang diaktifkan.

Menjalankan pembaruan alur dengan alur DLT tanpa server

Penting

Karena sumber daya komputasi dikelola sepenuhnya untuk alur DLT tanpa server, pengaturan komputasi tidak tersedia di UI Tabel Langsung Delta untuk alur tanpa server. Saat Anda mengaktifkan tanpa server, pengaturan komputasi apa pun yang telah Anda konfigurasi untuk alur akan dihapus. Jika Anda mengalihkan alur kembali ke pembaruan tanpa server, pengaturan komputasi ini harus ditambahkan kembali ke konfigurasi alur. Anda juga tidak dapat menambahkan pengaturan komputasi secara manual dalam clusters objek dalam konfigurasi JSON untuk alur.

Untuk menjalankan pembaruan alur yang menggunakan alur DLT tanpa server, pilih kotak centang Tanpa Server saat Anda membuat atau mengedit alur.

Bagaimana tampilan materialisasi di-refresh dalam alur DLT tanpa server?

Jika memungkinkan, hasil kueri diperbarui secara bertahap untuk tampilan materialisasi dalam alur tanpa server. Ketika refresh bertahap dilakukan, hasilnya setara dengan komputasi ulang penuh. Jika tampilan materialisasi tidak dapat disegarkan secara bertahap, proses refresh menggunakan refresh penuh sebagai gantinya. Lihat Operasi refresh untuk tampilan materialisasi.

Apa itu autoscaling vertikal?

Penskalaan otomatis vertikal alur DLT tanpa server secara otomatis mengalokasikan jenis instans yang paling hemat biaya yang tersedia untuk menjalankan pembaruan alur Tabel Langsung Delta Anda tanpa gagal karena kesalahan kehabisan memori. Skala otomatis vertikal meningkat ketika jenis instans yang lebih besar diperlukan untuk menjalankan pembaruan alur dan juga menurunkan skala ketika menentukan bahwa pembaruan dapat dijalankan dengan jenis instans yang lebih kecil. Autoscaling vertikal menentukan apakah simpul driver, simpul pekerja, atau simpul driver dan pekerja harus ditingkatkan atau diturunkan skalanya.

Penskalaan otomatis vertikal digunakan untuk semua alur DLT tanpa server, termasuk alur yang digunakan oleh tampilan materialisasi Databricks SQL dan tabel streaming.

Penskalaan otomatis vertikal berfungsi dengan mendeteksi pembaruan alur yang gagal karena kesalahan kehabisan memori. Ketika kegagalan ini terdeteksi, penskalaan otomatis vertikal mengalokasikan jenis instans yang lebih besar berdasarkan data kehabisan memori yang dikumpulkan dari pembaruan yang gagal. Dalam mode produksi, pembaruan baru yang menggunakan sumber daya komputasi baru dimulai secara otomatis. Dalam mode pengembangan, sumber daya komputasi baru digunakan saat Anda memulai pembaruan baru secara manual.

Jika penskalaan otomatis vertikal mendeteksi bahwa memori instans yang dialokasikan secara konsisten kurang digunakan, itu akan menurunkan skala jenis instans untuk digunakan dalam pembaruan alur berikutnya.

Bagikan melalui

Membuat alur yang dikelola sepenuhnya menggunakan Tabel Langsung Delta dengan komputasi tanpa server

Persyaratan

Menjalankan pembaruan alur dengan alur DLT tanpa server

Bagaimana tampilan materialisasi di-refresh dalam alur DLT tanpa server?

Apa itu autoscaling vertikal?

Saran dan Komentar

Sumber Daya Tambahan: