freqItems(DataFrameStatFunctions)

가양성으로 열에 대한 빈번한 항목을 찾습니다. Karp, Schenker 및 Papadimitriou에서 설명하는 빈번한 요소 수 알고리즘을 사용합니다. DataFrame.freqItems 는 DataFrameStatFunctions.freqItems 서로의 별칭입니다.

문법

freqItems(cols, support=None)

매개 변수

매개 변수	유형	설명
`cols`	list, tuple, 또는 array	자주 사용하는 항목을 계산할 열의 이름입니다.
`support`	float, 선택 사항	항목을 자주 고려해야 하는 빈도입니다. 기본값은 1%(0.01)입니다. 1e-4보다 커야 합니다.

Returns

DataFrame

Notes

이 메서드는 예비 데이터 분석을 위한 것입니다. 결과 DataFrame스키마에 대한 이전 버전과의 호환성을 보장하지 않습니다.

예제

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-19

freqItems(DataFrameStatFunctions)

문법

매개 변수

Returns

Notes

예제

피드백

추가 리소스