通过


xpath

返回与 XPath 表达式匹配的 xml 节点中的值的字符串数组。

Syntax

from pyspark.sql import functions as sf

sf.xpath(xml, path)

参数

参数 类型 Description
xml pyspark.sql.Column 或 str XML 列或列名。
path pyspark.sql.Column 或 str XPath 表达式。

例子

from pyspark.sql import functions as sf
df = spark.createDataFrame(
    [('<a><b>b1</b><b>b2</b><b>b3</b><c>c1</c><c>c2</c></a>',)], ['x'])
df.select(sf.xpath(df.x, sf.lit('a/b/text()'))).show()
+--------------------+
|xpath(x, a/b/text())|
+--------------------+
|        [b1, b2, b3]|
+--------------------+