Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Znajduje częste elementy dla kolumn, prawdopodobnie z fałszywie dodatnimi. Używa częstego algorytmu liczby elementów opisanych przez Karpa, Schenkera i Papadimitriou.
DataFrame.freqItems i DataFrameStatFunctions.freqItems są aliasami siebie nawzajem.
Składnia
freqItems(cols, support=None)
Parametry
| Parameter | Typ | Opis |
|---|---|---|
cols |
lista lub krotka | Nazwy kolumn do obliczania częstych elementów dla. |
support |
zmiennoprzecinkowy, opcjonalny | Częstotliwość, z jaką należy wziąć pod uwagę element częsty. Wartość domyślna to 1% (0,01). Musi być większy niż 1e-4. |
Zwroty
DataFrame
Notatki
Ta metoda jest przeznaczona do eksploracyjnej analizy danych. Nie ma gwarancji zgodności z poprzednimi wersjami dla schematu wynikowego DataFrameelementu .
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+