arrays_overlap

Devuelve una columna booleana que indica si las matrices de entrada tienen elementos comunes que no son NULL. Devuelve true si lo hacen, null si las matrices no contienen ningún elemento común, pero no están vacíos y al menos uno de ellos contiene un elemento NULL y false en caso contrario.

Syntax

from pyspark.sql import functions as sf

sf.arrays_overlap(a1, a2)

Parámetros

Parámetro	Tipo	Description
`a1`	`pyspark.sql.Column` o str	Nombre de la columna que contiene la primera matriz.
`a2`	`pyspark.sql.Column` o str	Nombre de la columna que contiene la segunda matriz.

Devoluciones

pyspark.sql.Column: una nueva columna de tipo booleano, donde cada valor indica si las matrices correspondientes de las columnas de entrada contienen elementos comunes.

Examples

Ejemplo 1: Uso básico de arrays_overlap función.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(["a", "b"], ["b", "c"]), (["a"], ["b", "c"])], ['x', 'y'])
df.select(sf.arrays_overlap(df.x, df.y)).show()

+--------------------+
|arrays_overlap(x, y)|
+--------------------+
|                true|
|               false|
+--------------------+

Ejemplo 2: Uso de arrays_overlap función con matrices que contienen elementos NULL.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(["a", None], ["b", None]), (["a"], ["b", "c"])], ['x', 'y'])
df.select(sf.arrays_overlap(df.x, df.y)).show()

+--------------------+
|arrays_overlap(x, y)|
+--------------------+
|                NULL|
|               false|
+--------------------+

Ejemplo 3: Uso de arrays_overlap función con matrices que son null.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(None, ["b", "c"]), (["a"], None)], ['x', 'y'])
df.select(sf.arrays_overlap(df.x, df.y)).show()

+--------------------+
|arrays_overlap(x, y)|
+--------------------+
|                NULL|
|                NULL|
+--------------------+

Ejemplo 4: Uso de arrays_overlap en matrices con elementos idénticos.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(["a", "b"], ["a", "b"]), (["a"], ["a"])], ['x', 'y'])
df.select(sf.arrays_overlap(df.x, df.y)).show()

+--------------------+
|arrays_overlap(x, y)|
+--------------------+
|                true|
|                true|
+--------------------+

Oharrak

Lagungarria al da orri hau?

Last updated on 2026-02-01