array

Crea una nueva columna de matriz a partir de las columnas de entrada o los nombres de columna.

Syntax

from pyspark.sql import functions as sf

sf.array(*cols)

Parámetros

Parámetro	Tipo	Description
`cols`	`pyspark.sql.Column` o str	Nombres de columna o objetos Column que tienen el mismo tipo de datos.

Devoluciones

pyspark.sql.Column: una nueva columna de tipo de matriz, donde cada valor es una matriz que contiene los valores correspondientes de las columnas de entrada.

Examples

Ejemplo 1: Uso básico de la función de matriz con nombres de columna.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array('name', 'occupation')).show()

+-----------------------+
|array(name, occupation)|
+-----------------------+
|        [Alice, doctor]|
|        [Bob, engineer]|
+-----------------------+

Ejemplo 2: Uso de la función de matriz con objetos Column.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array(df.name, df.occupation)).show()

+-----------------------+
|array(name, occupation)|
+-----------------------+
|        [Alice, doctor]|
|        [Bob, engineer]|
+-----------------------+

Ejemplo 3: Argumento único como lista de nombres de columna.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array(['name', 'occupation'])).show()

+-----------------------+
|array(name, occupation)|
+-----------------------+
|        [Alice, doctor]|
|        [Bob, engineer]|
+-----------------------+

Ejemplo 4: Uso de la función de matriz con columnas de tipos diferentes.

from pyspark.sql import functions as sf
df = spark.createDataFrame(
    [("Alice", 2, 22.2), ("Bob", 5, 36.1)],
    ("name", "age", "weight"))
df.select(sf.array(['age', 'weight'])).show()

+------------------+
|array(age, weight)|
+------------------+
|       [2.0, 22.2]|
|       [5.0, 36.1]|
+------------------+

Ejemplo 5: función de matriz con una columna que contiene valores NULL.

from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", None), ("Bob", "engineer")],
    ("name", "occupation"))
df.select(sf.array('name', 'occupation')).show()

+-----------------------+
|array(name, occupation)|
+-----------------------+
|          [Alice, NULL]|
|        [Bob, engineer]|
+-----------------------+

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-02-01