křížová tabulka (datový rámec)

Vypočítá tabulku četnosti párů daných sloupců. Označuje se také jako tabulka nepředvídaných událostí. Prvním sloupcem každého řádku budou jedinečné hodnoty col1 a názvy sloupců budou jedinečné hodnoty col2. Název prvního sloupce bude $col1_$col2. Páry, které nemají žádné výskyty, budou mít jako počet nula. DataFrame.crosstab a DataFrameStatFunctions.crosstab jsou aliasy.

Syntaxe

crosstab(col1: str, col2: str)

Parametry

Parameter Typ Description
col1 str Název prvního sloupce. Jedinečné položky vytvoří první položku každého řádku.
col2 str Název druhého sloupce. Jedinečné položky vytvoří názvy sloupců datového rámce.

Návraty

DataFrame: Matice četnosti dvou sloupců.

Příklady

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+