Bagikan melalui


theta_difference

Mengembalikan perbedaan yang ditetapkan dari dua representasi biner objek Datasketches ThetaSketch (elemen dalam sketsa pertama tetapi tidak dalam detik), menggunakan objek Datasketches ANotB.

Syntax

from pyspark.sql import functions as sf

sf.theta_difference(col1, col2)

Parameter-parameternya

Pengaturan Tipe Description
col1 pyspark.sql.Column atau str Sketsa Theta pertama.
col2 pyspark.sql.Column atau str Sketsa Theta kedua.

Pengembalian Barang

pyspark.sql.Column: Representasi biner dari perbedaan ThetaSketch.

Examples

Contoh 1: Dapatkan perbedaan dua sketsa Theta

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
    sf.theta_sketch_agg("v1").alias("sketch1"),
    sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
|                                                        3|
+---------------------------------------------------------+