freqItems (DataFrame)

Menemukan item yang sering untuk kolom, mungkin dengan positif palsu. Menggunakan algoritma jumlah elemen yang sering dijelaskan dalam "https://doi.org/10.1145/762471.762473, diusulkan oleh Karp, Schenker, dan Papadimitriou". DataFrame.freqItems dan DataFrameStatFunctions.freqItems adalah alias.

Sintaksis

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameter-parameternya

Parameter	Tipe	Deskripsi
`cols`	daftar atau tuple	Nama kolom untuk menghitung item yang sering sebagai daftar atau tuple string.
`support`	float, opsional	Frekuensi untuk mempertimbangkan item 'sering'. Defaultnya adalah 1%. Dukungan harus lebih besar dari 1e-4.

Pengembalian Barang

DataFrame: DataFrame dengan item yang sering.

Catatan

Fungsi ini dimaksudkan untuk analisis data eksploratif, karena kami tidak menjamin tentang kompatibilitas mundur dari skema DataFrame yang dihasilkan.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-19