Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Quita los valores duplicados de la matriz.
Syntax
from pyspark.sql import functions as sf
sf.array_distinct(col)
Parámetros
| Parámetro | Tipo | Description |
|---|---|---|
col |
pyspark.sql.Column o str |
Nombre de columna o expresión |
Devoluciones
pyspark.sql.Column: una nueva columna que es una matriz de valores únicos de la columna de entrada.
Examples
Ejemplo 1: Eliminación de valores duplicados de una matriz simple
from pyspark.sql import functions as sf
df = spark.createDataFrame([([1, 2, 3, 2],)], ['data'])
df.select(sf.array_distinct(df.data)).show()
+--------------------+
|array_distinct(data)|
+--------------------+
| [1, 2, 3]|
+--------------------+
Ejemplo 2: Eliminación de valores duplicados de varias matrices
from pyspark.sql import functions as sf
df = spark.createDataFrame([([1, 2, 3, 2],), ([4, 5, 5, 4],)], ['data'])
df.select(sf.array_distinct(df.data)).show()
+--------------------+
|array_distinct(data)|
+--------------------+
| [1, 2, 3]|
| [4, 5]|
+--------------------+
Ejemplo 3: Eliminación de valores duplicados de una matriz con todos los valores idénticos
from pyspark.sql import functions as sf
df = spark.createDataFrame([([1, 1, 1],)], ['data'])
df.select(sf.array_distinct(df.data)).show()
+--------------------+
|array_distinct(data)|
+--------------------+
| [1]|
+--------------------+
Ejemplo 4: Eliminación de valores duplicados de una matriz sin valores duplicados
from pyspark.sql import functions as sf
df = spark.createDataFrame([([1, 2, 3],)], ['data'])
df.select(sf.array_distinct(df.data)).show()
+--------------------+
|array_distinct(data)|
+--------------------+
| [1, 2, 3]|
+--------------------+
Ejemplo 5: Eliminación de valores duplicados de una matriz vacía
from pyspark.sql import functions as sf
from pyspark.sql.types import ArrayType, IntegerType, StructType, StructField
schema = StructType([
StructField("data", ArrayType(IntegerType()), True)
])
df = spark.createDataFrame([([],)], schema)
df.select(sf.array_distinct(df.data)).show()
+--------------------+
|array_distinct(data)|
+--------------------+
| []|
+--------------------+