freqItems (DataFrame)

Gyakori elemek keresése oszlopokhoz, esetleg hamis pozitív értékekkel. A Karp, Schenker és Papadimitriou által javasolt gyakorihttps://doi.org/10.1145/762471.762473 elemszám-algoritmus használata. DataFrame.freqItems és DataFrameStatFunctions.freqItems aliasok.

Szemantika

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Paraméterek

Paraméter Típus Leírás
cols lista vagy tömb A sztringek listájához vagy rekordjaihoz tartozó gyakori elemek kiszámításához használt oszlopok neve.
support lebegőpontos, nem kötelező Az a gyakoriság, amellyel egy "gyakori" elemet érdemes figyelembe venni. Az alapértelmezett érték 1%. A támogatásnak 1e-4-nél nagyobbnak kell lennie.

Visszatérítések

DataFrame: DataFrame gyakori elemekkel.

Jegyzetek

Ez a függvény felderítő adatelemzésre szolgál, mivel nem garantáljuk az eredményül kapott DataFrame sémájának visszamenőleges kompatibilitását.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+