Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Разделяет строку по совпадениям заданного шаблона.
Для соответствующей функции Databricks SQL смотрите функцию split.
Синтаксис
from pyspark.databricks.sql import functions as dbf
dbf.split(str=<str>, pattern=<pattern>, limit=<limit>)
Параметры
| Параметр | Тип | Description |
|---|---|---|
str |
pyspark.sql.Column или str |
строковое выражение для разделения |
pattern |
pyspark.sql.Column или literal string |
строка, представляющая регулярное выражение. Строка regex должна быть регулярным выражением Java. принимается в качестве представления регулярного выражения для обратной совместимости. Помимо int, limit теперь принимает имя столбца и столбца. |
limit |
pyspark.sql.Column или str или int |
целое число, которое управляет числом примененных значений pattern . _ limit > 0: длина результирующего массива не будет больше limit, а последняя запись результирующего массива будет содержать все входные данные за пределами последнего соответствующего шаблона. _ limit <= 0: pattern будет применяться как можно больше раз, и результирующий массив может иметь любой размер. |
Возвраты
pyspark.sql.Column: массив разделенных строк.
Примеры
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('oneAtwoBthreeC',)], ['s',])
df.select('*', dbf.split(df.s, '[ABC]')).show()
df.select('*', dbf.split(df.s, '[ABC]', 2)).show()
df.select('*', dbf.split('s', '[ABC]', -2)).show()
df = spark.createDataFrame([
('oneAtwoBthreeC', '[ABC]', 2),
('1A2B3C', '[1-9]+', 1),
('aa2bb3cc4', '[1-9]+', -1)], ['s', 'p', 'l'])
df.select('*', dbf.split(df.s, df.p)).show()
df.select(dbf.split('s', df.p, 'l')).show()