freqItems (datový rámec)

Hledání častých položek pro sloupce, pravděpodobně s falešně pozitivními výsledky Použití algoritmu počtu častých prvků popsaných vhttps://doi.org/10.1145/762471.762473 tématu ", navržený Karpem, Schenkerem a Papadimitriou". DataFrame.freqItems a DataFrameStatFunctions.freqItems jsou aliasy.

Syntaxe

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parametry

Parameter Typ Description
cols seznam nebo n-tice Názvy sloupců pro výpočet častých položek jako seznamu nebo řazené kolekce řetězců
support float, volitelné Frekvence, s jakou je potřeba zvážit "časté". Výchozí hodnota je 1%. Podpora musí být větší než 1e-4.

Návraty

DataFrame: Datový rámec s častými položkami.

Poznámky

Tato funkce je určená pro průzkumnou analýzu dat, protože nezaručujeme zpětnou kompatibilitu schématu výsledného datového rámce.

Příklady

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+