freqItems (DataFrameStatFunctions)

Vyhledá časté položky pro sloupce, pravděpodobně s falešně pozitivními výsledky. Používá algoritmus počtu častých prvků popsaný Karpem, Schenkerem a Papadimitriou. DataFrame.freqItems a DataFrameStatFunctions.freqItems jsou mezi sebou aliasy.

Syntaxe

freqItems(cols, support=None)

Parametry

Parameter Typ Description
cols seznam nebo n-tice Názvy sloupců pro výpočet častých položek
support float, volitelné Frekvence, s jakou je potřeba zvážit častou položku. Výchozí hodnota je 1% (0,01). Musí být větší než 1e-4.

Návraty

DataFrame

Poznámky

Tato metoda je určená pro průzkumnou analýzu dat. Neexistuje žádná záruka zpětné kompatibility pro schéma výsledného DataFrame.

Příklady

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+