text (DataFrameReader)

加载文本文件并返回 DataFrame 其架构以名为 value字符串列开头的字符串列,后跟分区列(如果有)。 文本文件必须编码为 UTF-8。 默认情况下,文本文件中的每个行都是生成的 DataFrame 中的新行。

Syntax

text(paths, wholetext=False, lineSep=None, **options)

参数

参数 类型 说明
paths str 或 list 一个或多个输入路径。
wholetext bool,可选 如果是 True,请以单个行的形式读取每个文件。 默认值为 False
lineSep str,可选 要使用的行分隔符。 默认值为 '\n''\r''\r\n'

退货

DataFrame

示例

将 DataFrame 写入文本文件,并将其读回。

import tempfile
with tempfile.TemporaryDirectory(prefix="text") as d:
    df = spark.createDataFrame([("a",), ("b",), ("c",)], schema=["alphabets"])
    df.write.mode("overwrite").format("text").save(d)

    spark.read.schema(df.schema).text(d).sort("alphabets").show()
    # +---------+
    # |alphabets|
    # +---------+
    # |        a|
    # |        b|
    # |        c|
    # +---------+