Compartir a través de


dividir

Divide la cadena alrededor de las coincidencias del patrón especificado.

Para obtener la función SQL de Databricks correspondiente, consulte split function.

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.split(str=<str>, pattern=<pattern>, limit=<limit>)

Parámetros

Parámetro Tipo Description
str pyspark.sql.Column o str una expresión de cadena que se va a dividir
pattern pyspark.sql.Column o literal string una cadena que representa una expresión regular. La cadena regex debe ser una expresión regular de Java. aceptado como una representación de expresión regular, por compatibilidad con versiones anteriores. Además de int, limit ahora acepta el nombre de columna y columna.
limit pyspark.sql.Column, str o int entero que controla el número de veces pattern que se aplica. _ limit > 0: la longitud de la matriz resultante no será mayor que limity la última entrada de la matriz resultante contendrá toda la entrada más allá del último patrón coincidente. _ : limit <= 0pattern se aplicará tantas veces como sea posible, y la matriz resultante puede ser de cualquier tamaño.

Devoluciones

pyspark.sql.Column: matriz de cadenas separadas.

Examples

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('oneAtwoBthreeC',)], ['s',])
df.select('*', dbf.split(df.s, '[ABC]')).show()
df.select('*', dbf.split(df.s, '[ABC]', 2)).show()
df.select('*', dbf.split('s', '[ABC]', -2)).show()
df = spark.createDataFrame([
('oneAtwoBthreeC', '[ABC]', 2),
('1A2B3C', '[1-9]+', 1),
('aa2bb3cc4', '[1-9]+', -1)], ['s', 'p', 'l'])
df.select('*', dbf.split(df.s, df.p)).show()
df.select(dbf.split('s', df.p, 'l')).show()