Freigeben über


array_join

Gibt eine Zeichenfolgenspalte zurück, indem die Elemente der Eingabearrayspalte mithilfe des Trennzeichens verkettet werden. Nullwerte innerhalb des Arrays können durch eine angegebene Zeichenfolge über das argument null_replacement ersetzt werden. Wenn null_replacement nicht festgelegt ist, werden NULL-Werte ignoriert.

Syntax

from pyspark.sql import functions as sf

sf.array_join(col, delimiter, null_replacement=None)

Die Parameter

Parameter Typ Description
col pyspark.sql.Column oder str Die Eingabespalte, die die arrays enthält, die verknüpft werden sollen.
delimiter str Die Zeichenfolge, die beim Verknüpfen der Arrayelemente als Trennzeichen verwendet werden soll.
null_replacement str, optional Die Zeichenfolge zum Ersetzen von Nullwerten innerhalb des Arrays. Wenn nicht festgelegt, werden NULL-Werte ignoriert.

Rückkehr

pyspark.sql.Column: Eine neue Spalte des Zeichenfolgentyps, wobei jeder Wert das Ergebnis des Verknüpfens des entsprechenden Arrays aus der Eingabespalte ist.

Examples

Beispiel 1: Grundlegende Verwendung von array_join Funktion.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(["a", "b", "c"],), (["a", "b"],)], ['data'])
df.select(sf.array_join(df.data, ",")).show()
+-------------------+
|array_join(data, ,)|
+-------------------+
|              a,b,c|
|                a,b|
+-------------------+

Beispiel 2: Verwendung array_join Funktion mit null_replacement Argument.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(["a", None, "c"],)], ['data'])
df.select(sf.array_join(df.data, ",", "NULL")).show()
+-------------------------+
|array_join(data, ,, NULL)|
+-------------------------+
|                 a,NULL,c|
+-------------------------+

Beispiel 3: Verwendung array_join Funktion ohne null_replacement Argument.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(["a", None, "c"],)], ['data'])
df.select(sf.array_join(df.data, ",")).show()
+-------------------+
|array_join(data, ,)|
+-------------------+
|                a,c|
+-------------------+

Beispiel 4: Verwendung array_join Funktion mit einem Array, das null ist.

from pyspark.sql import functions as sf
from pyspark.sql.types import StructType, StructField, ArrayType, StringType
schema = StructType([StructField("data", ArrayType(StringType()), True)])
df = spark.createDataFrame([(None,)], schema)
df.select(sf.array_join(df.data, ",")).show()
+-------------------+
|array_join(data, ,)|
+-------------------+
|               NULL|
+-------------------+

Beispiel 5: Verwendung von array_join Funktion mit einem Array, das nur Nullwerte enthält.

from pyspark.sql import functions as sf
from pyspark.sql.types import StructType, StructField, ArrayType, StringType
schema = StructType([StructField("data", ArrayType(StringType()), True)])
df = spark.createDataFrame([([None, None],)], schema)
df.select(sf.array_join(df.data, ",", "NULL")).show()
+-------------------------+
|array_join(data, ,, NULL)|
+-------------------------+
|                NULL,NULL|
+-------------------------+