foreachBatch (DataStreamWriter)

Mengatur output kueri streaming yang akan diproses menggunakan fungsi yang disediakan. Hanya didukung dalam mode eksekusi mikro-batch (yaitu, ketika pemicu tidak berkelanjutan). Dalam setiap mikro-batch, fungsi yang disediakan dipanggil dengan baris output sebagai DataFrame dan pengidentifikasi batch. ID batch dapat digunakan untuk mendeduplikasi dan menulis output secara transaksional ke sistem eksternal.

Sintaksis

foreachBatch(func)

Parameter-parameternya

Parameter Tipe Deskripsi
func Callable Fungsi yang mengambil DataFrame dan ID batch (int) sebagai input.

Pengembalian Barang

DataStreamWriter

Catatan

Dalam mode Spark Connect, fungsi yang disediakan tidak memiliki akses ke variabel yang ditentukan di luarnya.

Examples

import time
df = spark.readStream.format("rate").load()

def func(batch_df, batch_id):
    batch_df.collect()

q = df.writeStream.foreachBatch(func).start()
time.sleep(3)
q.stop()