schema (DataStreamReader)

指定输入架构。 某些数据源(例如 JSON)可以从数据中自动推断输入架构。 在此处指定架构可让数据源跳过架构推理并加快数据加载速度。

Syntax

schema(schema)

参数

参数 类型 说明
schema StructType 或 str StructType 对象或 DDL 格式的字符串(例如)。 col0 INT, col1 DOUBLE

退货

DataStreamReader

示例

from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

为 CSV 文件指定其他架构:

import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
    spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
    # root
    #  |-- col0: integer (nullable = true)
    #  |-- col1: string (nullable = true)