freqItems(DataFrameStatFunctions)

가양성으로 열에 대한 빈번한 항목을 찾습니다. Karp, Schenker 및 Papadimitriou에서 설명하는 빈번한 요소 수 알고리즘을 사용합니다. DataFrame.freqItemsDataFrameStatFunctions.freqItems 서로의 별칭입니다.

문법

freqItems(cols, support=None)

매개 변수

매개 변수 유형 설명
cols list, tuple, 또는 array 자주 사용하는 항목을 계산할 열의 이름입니다.
support float, 선택 사항 항목을 자주 고려해야 하는 빈도입니다. 기본값은 1%(0.01)입니다. 1e-4보다 커야 합니다.

Returns

DataFrame

Notes

이 메서드는 예비 데이터 분석을 위한 것입니다. 결과 DataFrame스키마에 대한 이전 버전과의 호환성을 보장하지 않습니다.

예제

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+