freqItems (DataFrame)

Büyük olasılıkla hatalı pozitif değerler içeren sütunlar için sık kullanılan öğeleri bulma. "https://doi.org/10.1145/762471.762473Karp, Schenker ve Papadimitriou tarafından önerilen" bölümünde açıklanan sık kullanılan öğe sayısı algoritmasını kullanma. DataFrame.freqItems ve DataFrameStatFunctions.freqItems diğer adlardır.

Sözdizimi

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parametreler

Parametre	Türü	Açıklama
`cols`	liste veya tuple	Dize listesi veya demet olarak sık kullanılan öğelerinin hesaplanması için sütunların adları.
`support`	float, isteğe bağlı	Bir öğenin 'sık' olarak dikkate alındığı sıklık. Varsayılan değer 1%' dir. Destek 1e-4'ten büyük olmalıdır.

İadeler

DataFrame: Sık kullanılan öğeler içeren DataFrame.

Notlar

Sonuçta elde edilen DataFrame şemasının geriye dönük uyumluluğu konusunda hiçbir garanti vermediğimiz için bu işlev keşif veri analizine yöneliktir.

Örnekler

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-04-19