用于从外部存储系统(例如文件系统和键值存储)加载流式处理数据帧的接口。 用于 spark.readStream 访问此权限。
Syntax
# Access through SparkSession
spark.readStream
方法
| 方法 | 说明 |
|---|---|
format(source) |
指定输入数据源格式。 |
schema(schema) |
指定流式处理数据帧的架构。 |
option(key, value) |
添加基础数据源的输入选项。 |
options(**options) |
为基础数据源添加多个输入选项。 |
load(path) |
从给定路径加载流式处理数据帧并返回它。 |
json(path) |
加载 JSON 文件流并返回 DataFrame。 |
orc(path) |
加载 ORC 文件流并返回 DataFrame。 |
parquet(path) |
加载 Parquet 文件流并返回 DataFrame。 |
text(path) |
加载文本文件流并返回 DataFrame。 |
csv(path) |
加载 CSV 文件流并返回数据帧。 |
xml(path) |
加载 XML 文件流并返回 DataFrame。 |
table(tableName) |
加载流式传输 Delta 表并返回 DataFrame。 |
name(source_name) |
为流式处理源分配一个名称,以便进行检查点演变。 |
changes(tableName) |
将指定表中的行级更改(更改数据捕获)作为流式处理数据帧返回。 |
示例
spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>
加载速率流、应用转换、写入控制台,并在 3 秒后停止。
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()