crosstab(DataFrame)

지정된 열의 쌍 단위 빈도 테이블을 계산합니다. 대체 테이블이라고도 합니다. 각 행의 첫 번째 열은 고유 값 col1 이 되고 열 이름은 .의 col2고유 값이 됩니다. 첫 번째 열의 이름은 .입니다 $col1_$col2. 발생이 없는 쌍의 개수는 0입니다. DataFrame.crosstabDataFrameStatFunctions.crosstab 칭입니다.

문법

crosstab(col1: str, col2: str)

매개 변수

매개 변수 유형 설명
col1 str 첫 번째 열의 이름입니다. 고유 항목은 각 행의 첫 번째 항목을 만듭니다.
col2 str 두 번째 열의 이름입니다. 고유 항목은 DataFrame의 열 이름을 만듭니다.

Returns

DataFrame: 두 열의 빈도 행렬입니다.

예제

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+