Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Gyakori elemek keresése oszlopokhoz, esetleg hamis pozitív értékekkel. A Karp, Schenker és Papadimitriou által javasolt gyakorihttps://doi.org/10.1145/762471.762473 elemszám-algoritmus használata.
DataFrame.freqItems és DataFrameStatFunctions.freqItems aliasok.
Szemantika
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Paraméterek
| Paraméter | Típus | Leírás |
|---|---|---|
cols |
lista vagy tömb | A sztringek listájához vagy rekordjaihoz tartozó gyakori elemek kiszámításához használt oszlopok neve. |
support |
lebegőpontos, nem kötelező | Az a gyakoriság, amellyel egy "gyakori" elemet érdemes figyelembe venni. Az alapértelmezett érték 1%. A támogatásnak 1e-4-nél nagyobbnak kell lennie. |
Visszatérítések
DataFrame: DataFrame gyakori elemekkel.
Jegyzetek
Ez a függvény felderítő adatelemzésre szolgál, mivel nem garantáljuk az eredményül kapott DataFrame sémájának visszamenőleges kompatibilitását.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+