Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Apache Spark Structured Streaming adalah mesin pemrosesan hampir real-time yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan tepat sekali menggunakan API Spark yang sudah dikenal. Streaming Terstruktur memungkinkan Anda mengekspresikan komputasi pada data streaming dengan cara yang sama seperti Anda mengekspresikan komputasi batch pada data statis. Mesin Streaming Terstruktur melakukan komputasi secara bertahap dan terus memperbarui hasilnya saat data streaming tiba.
Untuk tutorial langkah demi langkah, lihat Menjalankan beban kerja Streaming Terstruktur pertama Anda.
Membaca dari aliran data
Gunakan Streaming Terstruktur untuk menyerap data secara bertahap dari sumber data yang didukung.
| Feature | Deskripsi |
|---|---|
| Pemuat Otomatis | Memproses file data baru secara bertahap dan efisien saat tiba di penyimpanan cloud. |
| Pembacaan dan penulisan tabel Delta secara streaming | Gunakan tabel Delta Lake sebagai sumber streaming dan sink dengan jaminan pemrosesan sekali persis. |
| Konektor standar | Sambungkan ke bus pesan, antrean, dan aplikasi perusahaan menggunakan konektor standar. |
| Ukuran mikro-batch | Batasi laju input untuk mempertahankan ukuran batch yang konsisten dan mencegah penundaan pemrosesan. |
Menulis ke tempat penampungan data
Konfigurasikan cara Streaming Terstruktur mengirimkan data ke sistem target.
| Feature | Deskripsi |
|---|---|
| Pos pemeriksaan | Simpan status pemrosesan untuk mengaktifkan toleransi kesalahan dan semantik pengiriman tepat sekali. |
| Mode keluaran | Pilih antara menambahkan, memperbarui, dan menyelesaikan mode untuk kueri streaming stateful. |
| Interval waktu pemicu | Atur interval pemicu untuk menyeimbangkan latensi dan biaya untuk persyaratan pemrosesan Anda. |
| Mode waktu-nyata dalam streaming terstruktur | Memproses data untuk beban kerja real time dengan latensi end-to-end serendah lima milidetik. |
Pemrosesan stateful dan stateless
Kueri stateless mengolah baris data tanpa mempertahankan status. Kueri berstatus menyimpan keadaan sementara untuk agregasi, penggabungan, dan deduplikasi.
| Feature | Deskripsi |
|---|---|
| Kueri stateless streaming | Optimalkan kueri yang memproses data tanpa mempertahankan status menengah. |
| Watermark | Mengontrol berapa lama Streaming Terstruktur menunggu data yang terlambat tiba dalam operasi stateful. |
| Stateful streaming | Mengelola agregasi, penggabungan aliran, dan deduplikasi menggunakan operator stateful. |
Pemantauan dan pengelolaan
Melacak performa kueri, menerapkan pengoptimalan, dan mengatur akses data untuk beban kerja Streaming Terstruktur produksi.
| Feature | Deskripsi |
|---|---|
| Memantau dengan StreamingQueryListener | Lacak kemajuan kueri dan metrik performa menggunakan Spark UI dan LISTENER API. |
| Mengatur dengan Katalog Unity | Konfigurasikan Unity Catalog untuk beban kerja streaming dengan tata kelola dan kontrol akses. |