Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Vypočítá tabulku četnosti párů daných sloupců. Označuje se také jako tabulka nepředvídaných událostí. Prvním sloupcem každého řádku budou jedinečné hodnoty col1 a názvy sloupců budou jedinečné hodnoty col2. Název prvního sloupce bude $col1_$col2. Páry, které nemají žádné výskyty, budou mít jako počet nula.
DataFrame.crosstab a DataFrameStatFunctions.crosstab jsou aliasy.
Syntaxe
crosstab(col1: str, col2: str)
Parametry
| Parameter | Typ | Description |
|---|---|---|
col1 |
str | Název prvního sloupce. Jedinečné položky vytvoří první položku každého řádku. |
col2 |
str | Název druhého sloupce. Jedinečné položky vytvoří názvy sloupců datového rámce. |
Návraty
DataFrame: Matice četnosti dvou sloupců.
Příklady
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+