Bagikan melalui


Konsep Streaming Terstruktur

Artikel ini menyediakan pengantar Streaming Terstruktur di Azure Databricks.

Apa itu Streaming Terstruktur?

Apache Spark Structured Streaming adalah mesin pemrosesan hampir real-time yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan tepat sekali menggunakan API Spark yang sudah dikenal. Streaming Terstruktur memungkinkan Anda mengekspresikan komputasi pada data streaming dengan cara yang sama seperti Anda mengekspresikan komputasi batch pada data statis. Mesin Streaming Terstruktur melakukan komputasi secara bertahap dan terus memperbarui hasilnya saat data streaming tiba.

Membaca dari aliran data

Anda dapat menggunakan Streaming Terstruktur untuk menyerap data secara bertahap dari sumber data yang didukung. Sumber data umum meliputi yang berikut ini:

Setiap sumber data menyediakan sejumlah opsi untuk menentukan cara memuat batch data. Selama konfigurasi pembaca, Anda mungkin perlu mengonfigurasi opsi untuk melakukan hal berikut:

  • Tentukan sumber data atau format (misalnya, jenis file, pemisah, dan skema).
  • Mengonfigurasi akses ke sistem sumber (misalnya, pengaturan port dan kredensial).
  • Menentukan titik awal dalam aliran (misalnya, offset Kafka atau membaca semua berkas yang sudah ada).
  • Kontrol berapa banyak data yang diproses di setiap batch (misalnya, offset maks, file, atau byte per batch). Lihat Mengonfigurasi ukuran batch Streaming Terstruktur di Azure Databricks.

Menulis ke tempat penampungan data

Penampung data adalah sasaran dari operasi penulisan streaming. Sink umum yang digunakan dalam beban kerja streaming Azure Databricks meliputi yang berikut ini:

  • Danau Delta
  • Bus pesan dan antrean
  • Database kunci-nilai

Seperti sumber data, sebagian besar sink data menyediakan sejumlah opsi untuk mengontrol bagaimana data ditulis ke sistem target. Selama konfigurasi penulis, Anda menentukan opsi berikut: