split

Разделяет строку по совпадениям заданного шаблона.

Для соответствующей функции Databricks SQL смотрите функцию split.

Синтаксис

from pyspark.databricks.sql import functions as dbf

dbf.split(str=<str>, pattern=<pattern>, limit=<limit>)

Параметры

Параметр	Тип	Description
`str`	`pyspark.sql.Column` или `str`	строковое выражение для разделения
`pattern`	`pyspark.sql.Column` или `literal string`	строка, представляющая регулярное выражение. Строка regex должна быть регулярным выражением Java. принимается в качестве представления регулярного выражения для обратной совместимости. Помимо int, `limit` теперь принимает имя столбца и столбца.
`limit`	`pyspark.sql.Column` или `str` или `int`	целое число, которое управляет числом примененных значений `pattern` . _ `limit > 0`: длина результирующего массива не будет больше `limit`, а последняя запись результирующего массива будет содержать все входные данные за пределами последнего соответствующего шаблона. _ `limit <= 0`: `pattern` будет применяться как можно больше раз, и результирующий массив может иметь любой размер.

Возвраты

pyspark.sql.Column: массив разделенных строк.

Примеры

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('oneAtwoBthreeC',)], ['s',])
df.select('*', dbf.split(df.s, '[ABC]')).show()
df.select('*', dbf.split(df.s, '[ABC]', 2)).show()
df.select('*', dbf.split('s', '[ABC]', -2)).show()
df = spark.createDataFrame([
('oneAtwoBthreeC', '[ABC]', 2),
('1A2B3C', '[1-9]+', 1),
('aa2bb3cc4', '[1-9]+', -1)], ['s', 'p', 'l'])
df.select('*', dbf.split(df.s, df.p)).show()
df.select(dbf.split('s', df.p, 'l')).show()

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-02-01