freqItems (DataFrameStatFunctions)

Büyük olasılıkla hatalı pozitif değerler içeren sütunlar için sık kullanılan öğeleri bulur. Karp, Schenker ve Papadimitriou tarafından tanımlanan sık kullanılan öğe sayısı algoritmasını kullanır. DataFrame.freqItems ve DataFrameStatFunctions.freqItems birbirlerinin diğer adlarıdır.

Sözdizimi

freqItems(cols, support=None)

Parametreler

Parametre Türü Açıklama
cols liste veya tuple Sık kullanılan öğelerin hesaplanması için sütunların adları.
support float, isteğe bağlı Bir öğenin sık dikkate alındığı sıklık. Varsayılan değer 1% 'dir (0,01). 1e-4'ten büyük olmalıdır.

İadeler

DataFrame

Notlar

Bu yöntem keşif veri analizine yöneliktir. Elde DataFrameedilen şema için geriye dönük uyumluluk garantisi yoktur.

Örnekler

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+