Delen via


splijten

Splitst str rond overeenkomsten van het opgegeven patroon.

Voor de overeenkomstige Databricks SQL-functie, zie de split functie.

Syntaxis

from pyspark.databricks.sql import functions as dbf

dbf.split(str=<str>, pattern=<pattern>, limit=<limit>)

Parameterwaarden

Kenmerk Typologie Description
str pyspark.sql.Column of str een tekenreeksexpressie die moet worden gesplitst
pattern pyspark.sql.Column of literal string een tekenreeks die een reguliere expressie vertegenwoordigt. De regex-tekenreeks moet een reguliere Java-expressie zijn. geaccepteerd als een reguliere expressieweergave, voor compatibiliteit met eerdere versies. Naast int accepteert limit u nu de kolom- en kolomnaam.
limit pyspark.sql.Columnof strint een geheel getal dat het aantal keren pattern bepaalt dat wordt toegepast. _ limit > 0: de lengte van de resulterende matrix is niet meer dan limit, en de laatste invoer van de resulterende matrix bevat alle invoer buiten het laatst overeenkomende patroon. _ limit <= 0: pattern wordt zo vaak mogelijk toegepast en de resulterende matrix kan van elke grootte zijn.

Retouren

pyspark.sql.Column: matrix van gescheiden tekenreeksen.

Voorbeelden

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('oneAtwoBthreeC',)], ['s',])
df.select('*', dbf.split(df.s, '[ABC]')).show()
df.select('*', dbf.split(df.s, '[ABC]', 2)).show()
df.select('*', dbf.split('s', '[ABC]', -2)).show()
df = spark.createDataFrame([
('oneAtwoBthreeC', '[ABC]', 2),
('1A2B3C', '[1-9]+', 1),
('aa2bb3cc4', '[1-9]+', -1)], ['s', 'p', 'l'])
df.select('*', dbf.split(df.s, df.p)).show()
df.select(dbf.split('s', df.p, 'l')).show()