Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Calcula estadísticas básicas para columnas numéricas y de cadena.
Sintaxis
describe(*cols: Union[str, List[str]])
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
cols |
str, list, optional | Nombre de columna o lista de nombres de columna que se describirán por (de forma predeterminada Todas las columnas). |
Devoluciones
DataFrame: nuevo DataFrame que describe (proporciona estadísticas) dado DataFrame.
Notas
Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.
Use resumen para estadísticas expandidas y control sobre qué estadísticas se van a calcular.
Ejemplos
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# | count| 3|
# | mean|12.0|
# | stddev| 1.0|
# | min| 11|
# | max| 13|
# +-------+----+
df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+