freqItems(DataFrame)

가양성으로 열에 대한 빈번한 항목을 찾습니다. "Karp, Schenker 및 Papadimitriou에서 제안한"https://doi.org/10.1145/762471.762473에 설명된 빈번한 요소 수 알고리즘을 사용합니다. DataFrame.freqItemsDataFrameStatFunctions.freqItems 칭입니다.

문법

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

매개 변수

매개 변수 유형 설명
cols list, tuple, 또는 array 문자열의 목록 또는 튜플로 자주 사용되는 항목을 계산할 열의 이름입니다.
support float, 선택 사항 항목을 '자주' 고려할 빈도입니다. 기본값은 1%. 지원은 1e-4보다 커야 합니다.

Returns

DataFrame: 항목이 자주 있는 데이터 프레임입니다.

Notes

이 함수는 결과 DataFrame 스키마의 이전 버전과의 호환성을 보장하지 않으므로 예비 데이터 분석을 위한 것입니다.

예제

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+