freqItems (DataFrame)

Menemukan item yang sering untuk kolom, mungkin dengan positif palsu. Menggunakan algoritma jumlah elemen yang sering dijelaskan dalam "https://doi.org/10.1145/762471.762473, diusulkan oleh Karp, Schenker, dan Papadimitriou". DataFrame.freqItems dan DataFrameStatFunctions.freqItems adalah alias.

Sintaksis

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameter-parameternya

Parameter Tipe Deskripsi
cols daftar atau tuple Nama kolom untuk menghitung item yang sering sebagai daftar atau tuple string.
support float, opsional Frekuensi untuk mempertimbangkan item 'sering'. Defaultnya adalah 1%. Dukungan harus lebih besar dari 1e-4.

Pengembalian Barang

DataFrame: DataFrame dengan item yang sering.

Catatan

Fungsi ini dimaksudkan untuk analisis data eksploratif, karena kami tidak menjamin tentang kompatibilitas mundur dari skema DataFrame yang dihasilkan.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+