DataStreamReader

介面用於從外部儲存系統(例如檔案系統與鍵值儲存)載入串流資料框。 用來 spark.readStream 存取這個。

語法

# Access through SparkSession
spark.readStream

方法

方法 說明
format(source) 指定輸入資料來源格式。
schema(schema) 指定串流資料框架的結構。
option(key, value) 新增底層資料來源的輸入選項。
options(**options) 為底層資料來源新增多種輸入選項。
load(path) 從指定路徑載入串流資料幀並回傳。
json(path) 載入 JSON 檔案串流並回傳 DataFrame。
orc(path) 載入 ORC 檔案串流並回傳 DataFrame。
parquet(path) 載入 Parquet 檔案串流並回傳 DataFrame。
text(path) 載入文字檔案串流並回傳資料框。
csv(path) 載入 CSV 檔案串流並回傳 DataFrame。
xml(path) 載入 XML 檔案串流並回傳 DataFrame。
table(tableName) 載入串流 Delta 表格並回傳 DataFrame。
name(source_name) 為檢查點演化的串流來源分配名稱。
changes(tableName) 從指定資料表回傳列層級的變更(變更資料擷取)作為串流資料框。

Examples

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

載入速率串流,套用轉換,寫入主控台,3 秒後停止。

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()