Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Menemukan item yang sering untuk kolom, mungkin dengan positif palsu. Menggunakan algoritma jumlah elemen yang sering dijelaskan oleh Karp, Schenker, dan Papadimitriou.
DataFrame.freqItems dan DataFrameStatFunctions.freqItems adalah alias satu sama lain.
Sintaksis
freqItems(cols, support=None)
Parameter-parameternya
| Parameter | Tipe | Deskripsi |
|---|---|---|
cols |
daftar atau tuple | Nama kolom untuk menghitung item yang sering. |
support |
float, opsional | Frekuensi yang sering mempertimbangkan item. Defaultnya adalah 1% (0,01). Harus lebih besar dari 1e-4. |
Pengembalian Barang
DataFrame
Catatan
Metode ini dimaksudkan untuk analisis data eksploratif. Tidak ada jaminan kompatibilitas mundur untuk skema yang dihasilkan DataFrame.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+