Compartir vía


theta_difference

Devuelve la diferencia de conjunto de dos representaciones binarias de objetos Datasketches ThetaSketch (elementos del primer boceto pero no en segundo), utilizando un objeto ANotB datasketches.

Syntax

from pyspark.sql import functions as sf

sf.theta_difference(col1, col2)

Parámetros

Parámetro Tipo Description
col1 pyspark.sql.Column o str El primer croquis de Theta.
col2 pyspark.sql.Column o str El segundo croquis de Theta.

Devoluciones

pyspark.sql.Column: representación binaria de la diferencia ThetaSketch.

Examples

Ejemplo 1: Obtener la diferencia de dos bocetos de Theta

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
    sf.theta_sketch_agg("v1").alias("sketch1"),
    sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
|                                                        3|
+---------------------------------------------------------+