freqItems （DataFrameStatFunctions）

在欄位中發現頻繁的項目，可能有誤報。採用 Karp、Schenker 與 Papadimitriou 所描述的頻繁元素計數演算法。 DataFrame.freqItems 兩者 DataFrameStatFunctions.freqItems 是彼此的別名。

語法

freqItems(cols, support=None)

參數

參數	類型	說明
`cols`	list 或 Tuple	欄位名稱，用來計算頻繁項目。
`support`	浮動，選用	考慮一項物品的頻率。預設值為 1%（0.01）。必須大於1e-4。

退貨

DataFrame

Notes

此方法用於探索性資料分析。無法保證所得 DataFrame的結構具有向下相容性。

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-19

freqItems （DataFrameStatFunctions）

語法

參數

退貨

Notes

Examples

意見反應

其他資源