Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Calcula una tabla de frecuencias en pares de las columnas especificadas. También conocido como tabla de contingencia. La primera columna de cada fila será los valores distintos de y los nombres de col1 columna serán los valores distintos de col2. El nombre de la primera columna será $col1_$col2. Los pares que no tienen repeticiones tendrán cero como sus recuentos.
DataFrame.crosstab y DataFrameStatFunctions.crosstab son alias.
Sintaxis
crosstab(col1: str, col2: str)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
col1 |
str | Nombre de la primera columna. Los elementos distintos harán el primer elemento de cada fila. |
col2 |
str | Nombre de la segunda columna. Los elementos distintos harán los nombres de columna del dataframe. |
Devoluciones
DataFrame: matriz de frecuencia de dos columnas.
Ejemplos
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+