次の方法で共有


theta_intersection_agg

集計関数: 入力列のシータ スケッチの交差部分である Datasketches Theta スケッチのコンパクトなバイナリ表現を返します。

構文

from pyspark.databricks.sql import functions as dbf

dbf.theta_intersection_agg(col=<col>)

パラメーター

パラメーター タイプ Description
col pyspark.sql.Column または列名 交差する Theta スケッチを含む列。

返品ポリシー

pyspark.sql.Column: 交差するΘスケッチのバイナリ表現。

例示

from pyspark.databricks.sql import functions as dbf
df1 = spark.createDataFrame([1,2,2,3], "INT")
df1 = df1.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df2 = spark.createDataFrame([2,3,3,4], "INT")
df2 = df2.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df3 = df1.union(df2)
df3.agg(dbf.theta_sketch_estimate(dbf.theta_intersection_agg("sketch"))).show()
+-----------------------------------------------------+
|theta_sketch_estimate(theta_intersection_agg(sketch))|
+-----------------------------------------------------+
|                                                    2|
+-----------------------------------------------------+