Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
Calcula una tabla de frecuencias en pares de las columnas especificadas. También conocido como tabla de contingencia. La primera columna de cada fila será los valores distintos de y los nombres de col1 columna serán los valores distintos de col2. El nombre de la primera columna será $col1_$col2. Los pares que no tienen repeticiones tendrán cero como sus recuentos.
DataFrame.crosstab y DataFrameStatFunctions.crosstab son alias.
Sintaxis
crosstab(col1: str, col2: str)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
col1 |
str | Nombre de la primera columna. Los elementos distintos harán el primer elemento de cada fila. |
col2 |
str | Nombre de la segunda columna. Los elementos distintos harán los nombres de columna del dataframe. |
Devoluciones
DataFrame: matriz de frecuencia de dos columnas.
Ejemplos
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+