freqItems (DataFrameStatFunctions)

在欄位中發現頻繁的項目,可能有誤報。 採用 Karp、Schenker 與 Papadimitriou 所描述的頻繁元素計數演算法。 DataFrame.freqItems 兩者 DataFrameStatFunctions.freqItems 是彼此的別名。

語法

freqItems(cols, support=None)

參數

參數 類型 說明
cols list 或 Tuple 欄位名稱,用來計算頻繁項目。
support 浮動,選用 考慮一項物品的頻率。 預設值為 1%(0.01)。 必須大於1e-4。

退貨

DataFrame

Notes

此方法用於探索性資料分析。 無法保證所得 DataFrame的結構具有向下相容性。

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+