theta_difference

Mengembalikan perbedaan yang ditetapkan dari dua representasi biner objek Datasketches Theta Sketch (elemen dalam sketsa pertama tetapi tidak dalam detik), menggunakan objek Datasketches ANotB.

Syntax

from pyspark.sql import functions as sf

sf.theta_difference(col1, col2)

Parameter-parameternya

Pengaturan Tipe Description
col1 pyspark.sql.Column atau str Sketsa Theta pertama.
col2 pyspark.sql.Column atau str Sketsa Theta kedua.

Pengembalian Barang

pyspark.sql.Column: Representasi biner dari perbedaan Sketsa Theta.

Examples

Contoh 1: Dapatkan perbedaan dua sketsa Theta

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
    sf.theta_sketch_agg("v1").alias("sketch1"),
    sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
|                                                        3|
+---------------------------------------------------------+