合并

从多维数组创建一个单独的数组。如果嵌套数组的结构比两个级别更深，则仅删除一个嵌套级别。

Syntax

from pyspark.sql import functions as sf

sf.flatten(col)

参数

参数	类型	Description
`col`	`pyspark.sql.Column` 或 str	要平展的列或表达式的名称。

退货

pyspark.sql.Column：包含平展数组的新列。

例子

示例 1：平展简单的嵌套数组

from pyspark.sql import functions as sf
df = spark.createDataFrame([([[1, 2, 3], [4, 5], [6]],)], ['data'])
df.select(sf.flatten(df.data)).show()

+------------------+
|     flatten(data)|
+------------------+
|[1, 2, 3, 4, 5, 6]|
+------------------+

示例 2：平展具有 null 值的数组

from pyspark.sql import functions as sf
df = spark.createDataFrame([([None, [4, 5]],)], ['data'])
df.select(sf.flatten(df.data)).show()

+-------------+
|flatten(data)|
+-------------+
|         NULL|
+-------------+

示例 3：平展具有两个以上嵌套级别的数组

from pyspark.sql import functions as sf
df = spark.createDataFrame([([[[1, 2], [3, 4]], [[5, 6], [7, 8]]],)], ['data'])
df.select(sf.flatten(df.data)).show(truncate=False)

+--------------------------------+
|flatten(data)                   |
+--------------------------------+
|[[1, 2], [3, 4], [5, 6], [7, 8]]|
+--------------------------------+

示例 4：平展混合类型的数组

from pyspark.sql import functions as sf
df = spark.createDataFrame([([['a', 'b', 'c'], [1, 2, 3]],)], ['data'])
df.select(sf.flatten(df.data)).show()

+------------------+
|     flatten(data)|
+------------------+
|[a, b, c, 1, 2, 3]|
+------------------+

反馈

此页面是否有帮助？

Last updated on 2026-02-01

通过

合并

Syntax

参数

退货

例子

反馈

其他资源