freqItems (DataFrameStatFunctions)

Büyük olasılıkla hatalı pozitif değerler içeren sütunlar için sık kullanılan öğeleri bulur. Karp, Schenker ve Papadimitriou tarafından tanımlanan sık kullanılan öğe sayısı algoritmasını kullanır. DataFrame.freqItems ve DataFrameStatFunctions.freqItems birbirlerinin diğer adlarıdır.

Sözdizimi

freqItems(cols, support=None)

Parametreler

Parametre	Türü	Açıklama
`cols`	liste veya tuple	Sık kullanılan öğelerin hesaplanması için sütunların adları.
`support`	float, isteğe bağlı	Bir öğenin sık dikkate alındığı sıklık. Varsayılan değer 1% 'dir (0,01). 1e-4'ten büyük olmalıdır.

İadeler

DataFrame

Notlar

Bu yöntem keşif veri analizine yöneliktir. Elde DataFrameedilen şema için geriye dönük uyumluluk garantisi yoktur.

Örnekler

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-04-19