Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Devuelve la diferencia de conjunto de dos representaciones binarias de objetos Datasketches ThetaSketch (elementos del primer boceto pero no en segundo), utilizando un objeto ANotB datasketches.
Syntax
from pyspark.sql import functions as sf
sf.theta_difference(col1, col2)
Parámetros
| Parámetro | Tipo | Description |
|---|---|---|
col1 |
pyspark.sql.Column o str |
El primer croquis de Theta. |
col2 |
pyspark.sql.Column o str |
El segundo croquis de Theta. |
Devoluciones
pyspark.sql.Column: representación binaria de la diferencia ThetaSketch.
Examples
Ejemplo 1: Obtener la diferencia de dos bocetos de Theta
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
sf.theta_sketch_agg("v1").alias("sketch1"),
sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
| 3|
+---------------------------------------------------------+