Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Menemukan item yang sering untuk kolom, mungkin dengan positif palsu. Menggunakan algoritma jumlah elemen yang sering dijelaskan dalam "https://doi.org/10.1145/762471.762473, diusulkan oleh Karp, Schenker, dan Papadimitriou".
DataFrame.freqItems dan DataFrameStatFunctions.freqItems adalah alias.
Sintaksis
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Parameter-parameternya
| Parameter | Tipe | Deskripsi |
|---|---|---|
cols |
daftar atau tuple | Nama kolom untuk menghitung item yang sering sebagai daftar atau tuple string. |
support |
float, opsional | Frekuensi untuk mempertimbangkan item 'sering'. Defaultnya adalah 1%. Dukungan harus lebih besar dari 1e-4. |
Pengembalian Barang
DataFrame: DataFrame dengan item yang sering.
Catatan
Fungsi ini dimaksudkan untuk analisis data eksploratif, karena kami tidak menjamin tentang kompatibilitas mundur dari skema DataFrame yang dihasilkan.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+