Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Büyük olasılıkla hatalı pozitif değerler içeren sütunlar için sık kullanılan öğeleri bulur. Karp, Schenker ve Papadimitriou tarafından tanımlanan sık kullanılan öğe sayısı algoritmasını kullanır.
DataFrame.freqItems ve DataFrameStatFunctions.freqItems birbirlerinin diğer adlarıdır.
Sözdizimi
freqItems(cols, support=None)
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
cols |
liste veya tuple | Sık kullanılan öğelerin hesaplanması için sütunların adları. |
support |
float, isteğe bağlı | Bir öğenin sık dikkate alındığı sıklık. Varsayılan değer 1% 'dir (0,01). 1e-4'ten büyük olmalıdır. |
İadeler
DataFrame
Notlar
Bu yöntem keşif veri analizine yöneliktir. Elde DataFrameedilen şema için geriye dönük uyumluluk garantisi yoktur.
Örnekler
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+