Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Поиск частых элементов для столбцов, возможно, с ложными срабатываниями. Использование алгоритма частого количества элементов, описанного в разделе "https://doi.org/10.1145/762471.762473, предлагаемое Карпом, Шенкером и Пападимитриу".
DataFrame.freqItems и DataFrameStatFunctions.freqItems являются псевдонимами.
Синтаксис
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Параметры
| Параметр | Тип | Описание |
|---|---|---|
cols |
список или кортеж | Имена столбцов для вычисления частых элементов в виде списка или кортежа строк. |
support |
float, необязательный | Частота, с которой следует учитывать элемент "часто". Значение по умолчанию — 1%. Поддержка должна быть больше 1e-4. |
Возвраты
DataFrame: DataFrame с частыми элементами.
Примечания
Эта функция предназначена для анализа аналитических данных, так как мы не делаем никаких гарантий обратной совместимости схемы результирующего кадра данных.
Примеры
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+