Delen via


gegevensreeks

Hiermee maakt u een nieuwe matrixkolom op basis van de invoerkolommen of kolomnamen.

Syntaxis

from pyspark.sql import functions as sf

sf.array(*cols)

Parameterwaarden

Kenmerk Typologie Description
cols pyspark.sql.Column of str Kolomnamen of kolomobjecten met hetzelfde gegevenstype.

Retouren

pyspark.sql.Column: Een nieuwe kolom van het matrixtype, waarbij elke waarde een matrix is die de bijbehorende waarden uit de invoerkolommen bevat.

Voorbeelden

Voorbeeld 1: Basisgebruik van matrixfuncties met kolomnamen.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array('name', 'occupation')).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
|        [Alice, doctor]|
|        [Bob, engineer]|
+-----------------------+

Voorbeeld 2: Gebruik van matrixfunctie met kolomobjecten.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array(df.name, df.occupation)).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
|        [Alice, doctor]|
|        [Bob, engineer]|
+-----------------------+

Voorbeeld 3: Eén argument als lijst met kolomnamen.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array(['name', 'occupation'])).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
|        [Alice, doctor]|
|        [Bob, engineer]|
+-----------------------+

Voorbeeld 4: Gebruik van matrixfunctie met kolommen van verschillende typen.

from pyspark.sql import functions as sf
df = spark.createDataFrame(
    [("Alice", 2, 22.2), ("Bob", 5, 36.1)],
    ("name", "age", "weight"))
df.select(sf.array(['age', 'weight'])).show()
+------------------+
|array(age, weight)|
+------------------+
|       [2.0, 22.2]|
|       [5.0, 36.1]|
+------------------+

Voorbeeld 5: matrixfunctie met een kolom met null-waarden.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", None), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array('name', 'occupation')).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
|          [Alice, NULL]|
|        [Bob, engineer]|
+-----------------------+