計算數值與字串欄位的指定統計量。 可用統計數據包括:計數、平均數、標準發展、最小值、最大值、任意近似百分位數(以百分比指定)(例如75%)。
語法
summary(*statistics: str)
參數
| 參數 | 類型 | 說明 |
|---|---|---|
statistics |
力量,選用 | 欄位名稱以計算統計數據(預設為所有欄位)。 |
退貨
DataFrame:一個新的資料框架,提供給定資料框架的統計資料。
Notes
此函式用於探索性資料分析,因為我們無法保證所得資料框架的模式向後相容性。
Examples
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+