summary

Beräknar angiven statistik för numeriska kolumner och strängkolumner. Tillgänglig statistik är: count, mean, stddev, min, max, godtyckliga ungefärliga percentiler som anges som en procentandel (t.ex. 75%).

Syntax

summary(*statistics: str)

Parameters

Parameter Type Beskrivning
statistics str, valfritt Kolumnnamn för att beräkna statistik med (standard alla kolumner).

Retur

DataFrame: En ny DataFrame som tillhandahåller statistik för den angivna DataFrame.

Notes

Den här funktionen är avsedd för undersökande dataanalys, eftersom vi inte garanterar bakåtkompatibiliteten för schemat för den resulterande DataFrame.This function is meant for exploratory data analysis, as we make no guarantee about the back compatibility of the schema of the resulting DataFrame.

Exempel

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+