Konsep Streaming Terstruktur

2025-05-09

Artikel ini menyediakan pengantar Streaming Terstruktur di Azure Databricks.

Apa itu Streaming Terstruktur?

Apache Spark Structured Streaming adalah mesin pemrosesan hampir real-time yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan tepat sekali menggunakan API Spark yang sudah dikenal. Streaming Terstruktur memungkinkan Anda mengekspresikan komputasi pada data streaming dengan cara yang sama seperti Anda mengekspresikan komputasi batch pada data statis. Mesin Streaming Terstruktur melakukan komputasi secara bertahap dan terus memperbarui hasilnya saat data streaming tiba.

Membaca dari aliran data

Anda dapat menggunakan Streaming Terstruktur untuk menyerap data secara bertahap dari sumber data yang didukung. Sumber data umum meliputi yang berikut ini:

File data di penyimpanan objek cloud. Lihat Apa itu Pemuat Otomatis?.
Bus pesan dan antrian pesan. Lihat Konektor standar di Lakeflow Connect.
Danau Delta. Lihat tabel Delta dengan pembacaan dan penulisan streaming.

Setiap sumber data menyediakan sejumlah opsi untuk menentukan cara memuat batch data. Selama konfigurasi pembaca, Anda mungkin perlu mengonfigurasi opsi untuk melakukan hal berikut:

Tentukan sumber data atau format (misalnya, jenis file, pemisah, dan skema).
Mengonfigurasi akses ke sistem sumber (misalnya, pengaturan port dan kredensial).
Menentukan titik awal dalam aliran (misalnya, offset Kafka atau membaca semua berkas yang sudah ada).
Kontrol berapa banyak data yang diproses di setiap batch (misalnya, offset maks, file, atau byte per batch). Lihat Mengonfigurasi ukuran batch Streaming Terstruktur di Azure Databricks.

Menulis ke tempat penampungan data

Penampung data adalah sasaran dari operasi penulisan streaming. Sink umum yang digunakan dalam beban kerja streaming Azure Databricks meliputi yang berikut ini:

Danau Delta
Bus pesan dan antrean
Database kunci-nilai

Seperti sumber data, sebagian besar sink data menyediakan sejumlah opsi untuk mengontrol bagaimana data ditulis ke sistem target. Selama konfigurasi penulis, Anda menentukan opsi berikut:

Mode keluaran (tambah sebagai bawaan). Lihat Pilih mode output untuk Streaming Terstruktur.
Lokasi titik pemeriksaan (diperlukan untuk setiap penulis). Lihat checkpoint Streaming Terstruktur.
Pemicu interval. Lihat Mengonfigurasi interval pemicu Streaming Terstruktur.
Opsi yang menentukan sink atau format data (misalnya, jenis file, pemisah, dan skema).
Opsi yang mengonfigurasi akses ke sistem target (misalnya, pengaturan port dan kredensial).

Bagikan melalui

Konsep Streaming Terstruktur

Apa itu Streaming Terstruktur?

Membaca dari aliran data

Menulis ke tempat penampungan data

Saran dan Komentar

Sumber Daya Tambahan: