介面用於從外部儲存系統(例如檔案系統與鍵值儲存)載入串流資料框。 用來 spark.readStream 存取這個。
語法
# Access through SparkSession
spark.readStream
方法
| 方法 | 說明 |
|---|---|
format(source) |
指定輸入資料來源格式。 |
schema(schema) |
指定串流資料框架的結構。 |
option(key, value) |
新增底層資料來源的輸入選項。 |
options(**options) |
為底層資料來源新增多種輸入選項。 |
load(path) |
從指定路徑載入串流資料幀並回傳。 |
json(path) |
載入 JSON 檔案串流並回傳 DataFrame。 |
orc(path) |
載入 ORC 檔案串流並回傳 DataFrame。 |
parquet(path) |
載入 Parquet 檔案串流並回傳 DataFrame。 |
text(path) |
載入文字檔案串流並回傳資料框。 |
csv(path) |
載入 CSV 檔案串流並回傳 DataFrame。 |
xml(path) |
載入 XML 檔案串流並回傳 DataFrame。 |
table(tableName) |
載入串流 Delta 表格並回傳 DataFrame。 |
name(source_name) |
為檢查點演化的串流來源分配名稱。 |
changes(tableName) |
從指定資料表回傳列層級的變更(變更資料擷取)作為串流資料框。 |
Examples
spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>
載入速率串流,套用轉換,寫入主控台,3 秒後停止。
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()