Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
Restituisce la differenza di set di due rappresentazioni binarie degli oggetti Datasketches ThetaSketch (elementi nel primo schizzo ma non in secondo), utilizzando un oggetto Datasketches ANotB.
Sintassi
from pyspark.sql import functions as sf
sf.theta_difference(col1, col2)
Parametri
| Parametro | TIPO | Description |
|---|---|---|
col1 |
pyspark.sql.Column o str |
Primo schizzo di Theta. |
col2 |
pyspark.sql.Column o str |
Secondo schizzo di Theta. |
Restituzioni
pyspark.sql.Column: rappresentazione binaria della differenza ThetaSketch.
Esempi
Esempio 1: Ottenere la differenza di due schizzi Theta
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
sf.theta_sketch_agg("v1").alias("sketch1"),
sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
| 3|
+---------------------------------------------------------+