DataStreamReader

Antarmuka yang digunakan untuk memuat DataFrame streaming dari sistem penyimpanan eksternal (misalnya, sistem file dan penyimpanan nilai kunci). Gunakan spark.readStream untuk mengakses ini.

Sintaksis

# Access through SparkSession
spark.readStream

Metode

Metode Deskripsi
format(source) Menentukan format sumber data input.
schema(schema) Menentukan skema DataFrame streaming.
option(key, value) Menambahkan opsi input untuk sumber data yang mendasar.
options(**options) Menambahkan beberapa opsi input untuk sumber data yang mendasar.
load(path) Memuat DataFrame streaming dari jalur yang diberikan dan mengembalikannya.
json(path) Memuat aliran file JSON dan mengembalikan DataFrame.
orc(path) Memuat aliran file ORC dan mengembalikan DataFrame.
parquet(path) Memuat aliran file Parquet dan mengembalikan DataFrame.
text(path) Memuat aliran file teks dan mengembalikan DataFrame.
csv(path) Memuat aliran file CSV dan mengembalikan DataFrame.
xml(path) Memuat aliran file XML dan mengembalikan DataFrame.
table(tableName) Memuat tabel Delta streaming dan mengembalikan DataFrame.
name(source_name) Menetapkan nama ke sumber streaming untuk evolusi titik pemeriksaan.
changes(tableName) Mengembalikan perubahan tingkat baris (Ubah Pengambilan Data) dari tabel yang ditentukan sebagai DataFrame streaming.

Examples

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

Muat aliran laju, terapkan transformasi, tulis ke konsol, dan berhenti setelah 3 detik.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()