交叉表(DataFrame)

計算給定欄位的成對頻率表。 也稱為列備表。 每列的第一欄為 的不同 col1 值,欄名為 的不同 col2值。 第一欄的名稱為 $col1_$col2。 沒有發生的對數將為零。 DataFrame.crosstab 以及 DataFrameStatFunctions.crosstab 這些都是別名。

語法

crosstab(col1: str, col2: str)

參數

參數 類型 說明
col1 str 第一欄的名字。 每排的第一件物品會是不同的物品。
col2 str 第二欄的名字。 不同的項目會成為資料框架的欄位名稱。

退貨

DataFrame:兩欄頻率矩陣。

Examples

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+