freqItems (DataFrameStatFunctions)

Menemukan item yang sering untuk kolom, mungkin dengan positif palsu. Menggunakan algoritma jumlah elemen yang sering dijelaskan oleh Karp, Schenker, dan Papadimitriou. DataFrame.freqItems dan DataFrameStatFunctions.freqItems adalah alias satu sama lain.

Sintaksis

freqItems(cols, support=None)

Parameter-parameternya

Parameter	Tipe	Deskripsi
`cols`	daftar atau tuple	Nama kolom untuk menghitung item yang sering.
`support`	float, opsional	Frekuensi yang sering mempertimbangkan item. Defaultnya adalah 1% (0,01). Harus lebih besar dari 1e-4.

Pengembalian Barang

DataFrame

Catatan

Metode ini dimaksudkan untuk analisis data eksploratif. Tidak ada jaminan kompatibilitas mundur untuk skema yang dihasilkan DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-19