Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
Calcula las estadísticas especificadas para las columnas numéricas y de cadena. Las estadísticas disponibles son: count, mean, stddev, min, max, arbitrary approximate percentiles especificados como porcentaje (por ejemplo, 75%).
Sintaxis
summary(*statistics: str)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
statistics |
str, opcional | Nombres de columna para calcular las estadísticas de (de forma predeterminada Todas las columnas). |
Devoluciones
DataFrame: nuevo dataframe que proporciona estadísticas para el dataframe especificado.
Notas
Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.
Ejemplos
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+