freqItems (DataFrame)

Büyük olasılıkla hatalı pozitif değerler içeren sütunlar için sık kullanılan öğeleri bulma. "https://doi.org/10.1145/762471.762473Karp, Schenker ve Papadimitriou tarafından önerilen" bölümünde açıklanan sık kullanılan öğe sayısı algoritmasını kullanma. DataFrame.freqItems ve DataFrameStatFunctions.freqItems diğer adlardır.

Sözdizimi

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parametreler

Parametre Türü Açıklama
cols liste veya tuple Dize listesi veya demet olarak sık kullanılan öğelerinin hesaplanması için sütunların adları.
support float, isteğe bağlı Bir öğenin 'sık' olarak dikkate alındığı sıklık. Varsayılan değer 1%' dir. Destek 1e-4'ten büyük olmalıdır.

İadeler

DataFrame: Sık kullanılan öğeler içeren DataFrame.

Notlar

Sonuçta elde edilen DataFrame şemasının geriye dönük uyumluluğu konusunda hiçbir garanti vermediğimiz için bu işlev keşif veri analizine yöneliktir.

Örnekler

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+