freqItems (DataFrameStatFunctions)

Menemukan item yang sering untuk kolom, mungkin dengan positif palsu. Menggunakan algoritma jumlah elemen yang sering dijelaskan oleh Karp, Schenker, dan Papadimitriou. DataFrame.freqItems dan DataFrameStatFunctions.freqItems adalah alias satu sama lain.

Sintaksis

freqItems(cols, support=None)

Parameter-parameternya

Parameter Tipe Deskripsi
cols daftar atau tuple Nama kolom untuk menghitung item yang sering.
support float, opsional Frekuensi yang sering mempertimbangkan item. Defaultnya adalah 1% (0,01). Harus lebih besar dari 1e-4.

Pengembalian Barang

DataFrame

Catatan

Metode ini dimaksudkan untuk analisis data eksploratif. Tidak ada jaminan kompatibilitas mundur untuk skema yang dihasilkan DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+