Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Büyük olasılıkla hatalı pozitif değerler içeren sütunlar için sık kullanılan öğeleri bulma. "https://doi.org/10.1145/762471.762473Karp, Schenker ve Papadimitriou tarafından önerilen" bölümünde açıklanan sık kullanılan öğe sayısı algoritmasını kullanma.
DataFrame.freqItems ve DataFrameStatFunctions.freqItems diğer adlardır.
Sözdizimi
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
cols |
liste veya tuple | Dize listesi veya demet olarak sık kullanılan öğelerinin hesaplanması için sütunların adları. |
support |
float, isteğe bağlı | Bir öğenin 'sık' olarak dikkate alındığı sıklık. Varsayılan değer 1%' dir. Destek 1e-4'ten büyük olmalıdır. |
İadeler
DataFrame: Sık kullanılan öğeler içeren DataFrame.
Notlar
Sonuçta elde edilen DataFrame şemasının geriye dönük uyumluluğu konusunda hiçbir garanti vermediğimiz için bu işlev keşif veri analizine yöneliktir.
Örnekler
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+