加载文本文件并返回 DataFrame 其架构以名为 value字符串列开头的字符串列,后跟分区列(如果有)。 文本文件必须编码为 UTF-8。 默认情况下,文本文件中的每个行都是生成的 DataFrame 中的新行。
Syntax
text(paths, wholetext=False, lineSep=None, **options)
参数
| 参数 | 类型 | 说明 |
|---|---|---|
paths |
str 或 list | 一个或多个输入路径。 |
wholetext |
bool,可选 | 如果是 True,请以单个行的形式读取每个文件。 默认值为 False。 |
lineSep |
str,可选 | 要使用的行分隔符。 默认值为 '\n', '\r'或 '\r\n'。 |
退货
DataFrame
示例
将 DataFrame 写入文本文件,并将其读回。
import tempfile
with tempfile.TemporaryDirectory(prefix="text") as d:
df = spark.createDataFrame([("a",), ("b",), ("c",)], schema=["alphabets"])
df.write.mode("overwrite").format("text").save(d)
spark.read.schema(df.schema).text(d).sort("alphabets").show()
# +---------+
# |alphabets|
# +---------+
# | a|
# | b|
# | c|
# +---------+