通过


regexp_replace

将匹配正则表达式的指定字符串值的所有子字符串替换为替换文本。

有关相应的 Databricks SQL 函数,请参阅 regexp_replace 函数

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.regexp_replace(string=<string>, pattern=<pattern>, replacement=<replacement>)

参数

参数 类型 Description
string pyspark.sql.Columnstr 包含字符串值的列名或列
pattern pyspark.sql.Columnstr 包含正则表达式模式的列对象或 str
replacement pyspark.sql.Columnstr 包含替换项的列对象或 str

例子

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame(
[("100-200", r"(\d+)", "--")],
["str", "pattern", "replacement"]
)
df.select('*', dbf.regexp_replace('str', r'(\d+)', '--')).show()
df.select('*',
dbf.regexp_replace(dbf.col("str"), dbf.col("pattern"), dbf.col("replacement"))
).show()