Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Mengembalikan perbedaan yang ditetapkan dari dua representasi biner objek Datasketches ThetaSketch (elemen dalam sketsa pertama tetapi tidak dalam detik), menggunakan objek Datasketches ANotB.
Syntax
from pyspark.sql import functions as sf
sf.theta_difference(col1, col2)
Parameter-parameternya
| Pengaturan | Tipe | Description |
|---|---|---|
col1 |
pyspark.sql.Column atau str |
Sketsa Theta pertama. |
col2 |
pyspark.sql.Column atau str |
Sketsa Theta kedua. |
Pengembalian Barang
pyspark.sql.Column: Representasi biner dari perbedaan ThetaSketch.
Examples
Contoh 1: Dapatkan perbedaan dua sketsa Theta
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
sf.theta_sketch_agg("v1").alias("sketch1"),
sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
| 3|
+---------------------------------------------------------+